Sistemas de Agentes · Demostraciones I+D

Pipeline de Markdown a Grafo de Conocimiento

Explorando la transformación de documentación a grafo con Neo4j

Juan Iturbe
Pipeline de Markdown a Grafo de Conocimiento

Estado

Investigación y Demostración

Este proyecto es un pipeline experimental de ingesta de grafos de conocimiento construido para explorar cómo la documentación puede transformarse en un grafo estructurado y consultable.


Descripción General

Esta demostración explora una limitación común de la documentación tradicional:

Markdown es fácil de escribir, pero difícil de razonar programáticamente.

El pipeline convierte documentación markdown estructurada jerárquicamente en un grafo de conocimiento Neo4j, haciendo que conceptos, secciones y referencias sean explícitos y navegables.

El énfasis está en diseño de ontología y estructura semántica, no en búsqueda de texto completo o renderización de documentación estática.


Idea Central

En lugar de tratar la documentación como texto plano, el sistema la trata como conocimiento estructurado:

  • Los temas de nivel superior se convierten en nodos Concepto
  • Las subsecciones se convierten en nodos Fragmento
  • Las referencias de archivos se convierten en relaciones explícitas
  • La jerarquía se preserva como estructura de grafo

Esto permite consultas nativas de grafos como:

  • “¿Qué conceptos están relacionados con este tema?”
  • “¿Qué secciones hacen referencia a los mismos activos?”
  • “¿Qué documentación se ve impactada si este concepto cambia?”

Resumen de Arquitectura

El pipeline procesa un directorio de archivos markdown y construye una ontología determinista en Neo4j.

Etapas de alto nivel:

  1. Analizar estructura markdown
  2. Extraer conceptos y fragmentos
  3. Normalizar contenido en nodos
  4. Crear relaciones explícitas
  5. Persistir estructura de grafo

El pipeline es intencionalmente simple para hacer del modelo de datos el enfoque principal.


Modelo de Datos

Nodos

Concepto

  • Representa un tema de nivel superior
  • Derivado de encabezados markdown de nivel 1
  • Actúa como un anclaje semántico

Fragmento

  • Representa una subsección o idea
  • Derivado de encabezados de nivel 2
  • Contiene el contenido explicativo real

Relaciones

  • (:Concepto)-[:TIENE]->(:Fragmento)
  • (:Fragmento)-[:PARTE_DE]->(:Concepto)

Las relaciones bidireccionales hacen que el recorrido y el razonamiento sean más fáciles sin depender de jerarquía implícita.


Características principales

Mapeo de Documentación → Ontología

Muestra cómo la documentación no estructurada puede mapearse en un modelo de grafo formal con semántica clara.

Pensamiento Nativo de Grafos

El sistema está diseñado alrededor de relaciones primero, no documentos o tablas.

Ingesta Determinista

Dada la misma estructura markdown, el pipeline produce la misma estructura de grafo cada vez.

Fundación para Graph-RAG

El grafo resultante puede extenderse con:

  • Incrustaciones
  • Relaciones de similitud
  • Razonamiento entre documentos
  • Recorrido impulsado por agentes

Este pipeline actúa como una capa base para sistemas de conocimiento más avanzados.


Stack Tecnológico

  • Node.js / TypeScript — implementación del pipeline
  • Neo4j — almacenamiento de grafo de conocimiento
  • Markdown — formato de origen

No hay frameworks escondidos detrás de abstracciones — el enfoque está en claridad en el modelado de datos.


Explora el Código

  • GitHub: https://github.com/ituPhi/ds-parse

  • Áreas de interés:

    • Lógica de análisis de markdown
    • Definición de ontología
    • Patrones de escritura en Neo4j
    • Decisiones de modelado de relaciones