Pipeline de Markdown a Grafo de Conocimiento
Explorando la transformación de documentación a grafo con Neo4j
Un pipeline experimental que transforma documentación markdown estructurada en un grafo de conocimiento Neo4j.
Estado
Investigación y Demostración
Este proyecto es un pipeline experimental de ingesta de grafos de conocimiento construido para explorar cómo la documentación puede transformarse en un grafo estructurado y consultable.
Descripción General
Esta demostración explora una limitación común de la documentación tradicional:
Markdown es fácil de escribir, pero difícil de razonar programáticamente.
El pipeline convierte documentación markdown estructurada jerárquicamente en un grafo de conocimiento Neo4j, haciendo que conceptos, secciones y referencias sean explícitos y navegables.
El énfasis está en diseño de ontología y estructura semántica, no en búsqueda de texto completo o renderización de documentación estática.
Idea Central
En lugar de tratar la documentación como texto plano, el sistema la trata como conocimiento estructurado:
- Los temas de nivel superior se convierten en nodos Concepto
- Las subsecciones se convierten en nodos Fragmento
- Las referencias de archivos se convierten en relaciones explícitas
- La jerarquía se preserva como estructura de grafo
Esto permite consultas nativas de grafos como:
- “¿Qué conceptos están relacionados con este tema?”
- “¿Qué secciones hacen referencia a los mismos activos?”
- “¿Qué documentación se ve impactada si este concepto cambia?”
Resumen de Arquitectura
El pipeline procesa un directorio de archivos markdown y construye una ontología determinista en Neo4j.
Etapas de alto nivel:
- Analizar estructura markdown
- Extraer conceptos y fragmentos
- Normalizar contenido en nodos
- Crear relaciones explícitas
- Persistir estructura de grafo
El pipeline es intencionalmente simple para hacer del modelo de datos el enfoque principal.
Modelo de Datos
Nodos
Concepto
- Representa un tema de nivel superior
- Derivado de encabezados markdown de nivel 1
- Actúa como un anclaje semántico
Fragmento
- Representa una subsección o idea
- Derivado de encabezados de nivel 2
- Contiene el contenido explicativo real
Relaciones
(:Concepto)-[:TIENE]->(:Fragmento)(:Fragmento)-[:PARTE_DE]->(:Concepto)
Las relaciones bidireccionales hacen que el recorrido y el razonamiento sean más fáciles sin depender de jerarquía implícita.
Características principales
Mapeo de Documentación → Ontología
Muestra cómo la documentación no estructurada puede mapearse en un modelo de grafo formal con semántica clara.
Pensamiento Nativo de Grafos
El sistema está diseñado alrededor de relaciones primero, no documentos o tablas.
Ingesta Determinista
Dada la misma estructura markdown, el pipeline produce la misma estructura de grafo cada vez.
Fundación para Graph-RAG
El grafo resultante puede extenderse con:
- Incrustaciones
- Relaciones de similitud
- Razonamiento entre documentos
- Recorrido impulsado por agentes
Este pipeline actúa como una capa base para sistemas de conocimiento más avanzados.
Stack Tecnológico
- Node.js / TypeScript — implementación del pipeline
- Neo4j — almacenamiento de grafo de conocimiento
- Markdown — formato de origen
No hay frameworks escondidos detrás de abstracciones — el enfoque está en claridad en el modelado de datos.
Explora el Código
-
Áreas de interés:
- Lógica de análisis de markdown
- Definición de ontología
- Patrones de escritura en Neo4j
- Decisiones de modelado de relaciones
Un pipeline experimental que transforma documentación markdown estructurada en un grafo de conocimiento Neo4j.