GraphRAG: Microsoft's Graph-Based Retrieval Augmented Generation

What GraphRAG Is

Qué es GraphRAG

GraphRAG (Graphs + Retrieval Augmented Generation) is Microsoft’s approach to retrieval-augmented generation that addresses a fundamental limitation of standard RAG: the inability to answer global questions that require understanding the entire corpus.

GraphRAG (Grafos + Generación Aumentada por Recuperación) es la propuesta de Microsoft para la generación aumentada por recuperación que aborda una limitación fundamental del RAG estándar: la incapacidad de responder preguntas globales que requieren comprender todo el corpus.

Released in 2024, GraphRAG combines LLM-based entity extraction, knowledge graph construction, community detection, and hierarchical summarization to enable reasoning over large document collections.

Lanzado en 2024, GraphRAG combina extracción de entidades basada en LLM, construcción de grafos de conocimiento, detección de comunidades y resumen jerárquico para habilitar razonamiento sobre grandes colecciones de documentos.

Unlike traditional RAG that retrieves relevant chunks based on vector similarity, GraphRAG builds a structured knowledge graph that captures entities, their relationships, and the semantic communities they form.

A diferencia del RAG tradicional que recupera fragmentos relevantes basados en similitud vectorial, GraphRAG construye un grafo de conocimiento estructurado que captura entidades, sus relaciones y las comunidades semánticas que forman.

The Two-Phase Architecture

La Arquitectura de Dos Fases

Indexing Phase: The system first uses an LLM to extract entities (people, organizations, locations) and their relationships from text segments. It then applies the Leiden algorithm for community detection, partitioning the graph hierarchically from high-level themes to specific topics. Each community receives a summary generated by the LLM, creating a hierarchical representation of the corpus’s structure.

Fase de Indexación: El sistema primero usa un LLM para extraer entidades (personas, organizaciones, ubicaciones) y sus relaciones de segmentos de texto. Luego aplica el algoritmo de Leiden para detección de comunidades, particionando el grafo jerárquicamente desde temas de alto nivel hasta temas específicos. Cada comunidad recibe un resumen generado por el LLM, creando una representación jerárquica de la estructura del corpus.

Query Phase: For global questions that span the entire dataset, GraphRAG uses a map-reduce approach over community summaries. The map step extracts relevant information from each community, and the reduce step synthesizes these into a coherent answer. For specific entity queries, local search traverses the graph neighborhood to gather context.

Fase de Consulta: Para preguntas globales que abarcan todo el conjunto de datos, GraphRAG usa un enfoque map-reduce sobre resúmenes de comunidades. El paso map extrae información relevante de cada comunidad, y el paso reduce sintetiza esto en una respuesta coherente. Para consultas de entidades específicas, la búsqueda local atraviesa el vecindario del grafo para reunir contexto.

The Key Innovation

La Innovación Clave

The Leiden algorithm detects communities at multiple levels, creating a hierarchical structure where high-level communities represent broad themes and nested communities represent specific topics. This hierarchy enables efficient navigation from broad understanding to specific details.

El algoritmo de Leiden detecta comunidades en múltiples niveles, creando una estructura jerárquica donde comunidades de alto nivel representan temas amplios y comunidades anidadas representan temas específicos. Esta jerarquía permite navegación eficiente desde comprensión amplia hasta detalles específicos.

Community summaries provide compressed representations of entire topic areas, enabling the LLM to reason about content without processing the full text.

Los resúmenes de comunidades proporcionan representaciones comprimidas de áreas temáticas completas, permitiendo al LLM razonar sobre contenido sin procesar el texto completo.

Why Standard RAG Falls Short

Por Qué el RAG Estándar Queda Corto

Traditional RAG excels at specific queries like “What did Alice say about X?” but struggles with global questions like “What are the main themes in this corpus?” or “Summarize the relationships between all entities.”

El RAG tradicional sobresale en consultas específicas como “¿Qué dijo Alice sobre X?” pero tiene dificultades con preguntas globales como “¿Cuáles son los principales temas en este corpus?” o “Resume las relaciones entre todas las entidades.”

These questions require understanding the entire dataset, which is prohibitively expensive with naive chunk retrieval. GraphRAG solves this by preprocessing these relationships into community summaries.

Estas preguntas requieren comprender todo el conjunto de datos, lo cual es prohibitivamente costoso con recuperación de fragmentos naive. GraphRAG resuelve esto preprocesando estas relaciones en resúmenes de comunidades.

Integration with Knowledge Graphs

Integración con Grafos de Conocimiento

GraphRAG works exceptionally well with knowledge graph databases like FalkorDB, where the structured entity information can be queried efficiently. The combination of low-latency graph traversal and hierarchical summarization enables real-time reasoning over large knowledge bases.

GraphRAG funciona excepcionalmente bien con bases de datos de grafos de conocimiento como FalkorDB, donde la información estructurada de entidades puede ser consultada eficientemente. La combinación de recorrido de grafo de baja latencia y resumen jerárquico habilita razonamiento en tiempo real sobre grandes bases de conocimiento.

Use Cases

Casos de Uso

The system excels at corporate knowledge bases where users ask questions spanning many documents, research summarization across papers, legal discovery involving relationships between entities, and any application requiring holistic understanding of document collections.

El sistema sobresale en bases de conocimiento corporativas donde los usuarios preguntan sobre muchos documentos, resumir investigación a través de artículos, descubrimiento legal involucrando relaciones entre entidades, y cualquier aplicación que requiera comprensión holística de colecciones de documentos.

References

Referencias

GraphRAG Official Website: www.microsoft.com/en-us/research/project/graphrag
GraphRAG GitHub Repository: github.com/microsoft/graphrag
GraphRAG: Unlocking LLM discovery on narrative private data — arXiv:2404.16130: arxiv.org/abs/2404.16130

Sitio Oficial de GraphRAG: www.microsoft.com/en-us/research/project/graphrag
Repositorio GraphRAG en GitHub: github.com/microsoft/graphrag
GraphRAG: Unlocking LLM discovery on narrative private data — arXiv:2404.16130: arxiv.org/abs/2404.16130