MemGraphRAG: Memory-Based Multi-Agent Systems for Graph RAG

GraphRAG was supposed to fix RAG’s blind spots. By organizing knowledge into structured graphs instead of flat text chunks, GraphRAG methods promised multi-hop reasoning, global comprehension, and coherent retrieval across large corpora. In practice, they often underperform naive RAG on real-world tasks. The gap between promise and reality is the subject of MemGraphRAG: Memory-based Multi-Agent System for Graph Retrieval-Augmented Generation (arXiv:2606.00610), from Xiamen University and Jilin University, accepted at KDD 2026.

GraphRAG debía solucionar los puntos ciegos de RAG. Al organizar el conocimiento en grafos estructurados en lugar de fragmentos de texto plano, los métodos GraphRAG prometían razonamiento multi-salto, comprensión global y recuperación coherente en corpus grandes. En la práctica, a menudo rinden por debajo de RAG naíf en tareas reales. La brecha entre promesa y realidad es el tema de MemGraphRAG: Memory-based Multi-Agent System for Graph Retrieval-Augmented Generation (arXiv:2606.00610), de Xiamen University y Jilin University, aceptado en KDD 2026.

The paper identifies the root cause with striking clarity: existing GraphRAG systems process document chunks in isolation. Without a global view of the corpus, extraction models independently produce triples that are thematically irrelevant, logically contradictory, or structurally disconnected. More knowledge in the graph does not mean better answers—it often means noisier retrieval contexts that overwhelm the LLM. MemGraphRAG replaces isolated extraction with a memory-based multi-agent society: a shared three-layer global memory that three specialized agents consult, update, and correct as they build the knowledge graph.

El paper identifica la causa raíz con claridad sorprendente: los sistemas GraphRAG existentes procesan fragmentos de documentos de forma aislada. Sin una visión global del corpus, los modelos de extracción producen triples temáticamente irrelevantes, lógicamente contradictorios o estructuralmente desconectados. Más conocimiento en el grafo no significa mejores respuestas—a menudo significa contextos de recuperación más ruidosos que abruman al LLM. MemGraphRAG reemplaza la extracción aislada con una sociedad multi-agente basada en memoria: una memoria global compartida de tres capas que tres agentes especializados consultan, actualizan y corrigen mientras construyen el grafo de conocimiento.

The Three Deficiencies of Isolated Extraction

Las Tres Deficiencias de la Extracción Aislada

Through preliminary experiments on medical QA datasets, the authors demonstrate that existing GraphRAG systems achieve higher retrieval recall than naive RAG (e.g., GFM-RAG hits 84.3% vs. RAG’s 71.8%), but at a devastating cost to relevance (38.5% vs. 62.9%). The net effect is lower generation accuracy. Filtering out 40% of low-frequency triples actually improves accuracy, confirming that most extracted triples are noise. The paper traces this to three systematic deficiencies:

Mediante experimentos preliminares en datasets de QA médica, los autores demuestran que los sistemas GraphRAG existentes logran mayor recall de recuperación que RAG naíf (ej. GFM-RAG alcanza 84.3% vs. 71.8% de RAG), pero a un costo devastador para la relevancia (38.5% vs. 62.9%). El efecto neto es menor precisión en generación. Filtrar el 40% de los triples de baja frecuencia en realidad mejora la precisión, confirmando que la mayoría de los triples extraídos son ruido. El paper rastrea esto a tres deficiencias sistemáticas:

Thematic Irrelevance. Without a global theme, local extraction introduces off-topic triples. Entities and relations that are locally valid but globally irrelevant pollute the graph.

Irrelevancia Temática. Sin un tema global, la extracción local introduce triples fuera de tema. Entidades y relaciones localmente válidas pero globalmente irrelevantes contaminan el grafo.

Logical Inconsistency. Independent chunk processing creates three types of semantic contradictions: mutually exclusive conflicts (contradictory facts), temporal conflicts (missing time grounding for changing states), and granularity conflicts (inconsistent abstraction levels for the same concept).

Inconsistencia Lógica. El procesamiento independiente de fragmentos crea tres tipos de contradicciones semánticas: conflictos mutuamente excluyentes (hechos contradictorios), conflictos temporales (falta de anclaje temporal para estados cambiantes) y conflictos de granularidad (niveles de abstracción inconsistentes para el mismo concepto).

Structural Fragmentation. Missing global coreference resolution and schema alignment cause duplicated entities scattered across disconnected subgraphs, preventing effective multi-hop traversal.

Fragmentación Estructural. La falta de resolución de correferencia global y alineación de esquemas causa entidades duplicadas dispersas en subgrafos desconectados, impidiendo el recorrido multi-salto efectivo.

The Solution: Memory-Based Multi-Agent Graph Construction

La Solución: Construcción de Grafos Multi-Agente Basada en Memoria

MemGraphRAG introduces three components that co-evolve: a Global Memory, a Hierarchical Indexing Graph, and a Multi-Agent Group.

MemGraphRAG introduce tres componentes que co-evolucionan: una Memoria Global, un Grafo de Indexación Jerárquico y un Grupo Multi-Agente.

The Global Memory (ℳ) organizes knowledge into three tiers: an Ontology Layer (ℳ_ont) storing schemas with extraction frequencies, a Fact Layer (ℳ_fac) maintaining concrete facts, and a Passage Layer (ℳ_pas) preserving original text for evidence grounding. Schemas are promoted from candidate to stable only when their frequency exceeds a threshold—a simple but effective denoising mechanism.

La Memoria Global (ℳ) organiza el conocimiento en tres niveles: una Capa de Ontología (ℳ_ont) que almacena esquemas con frecuencias de extracción, una Capa de Hechos (ℳ_fac) que mantiene hechos concretos y una Capa de Pasajes (ℳ_pas) que preserva el texto original para fundamentar evidencia. Los esquemas se promueven de candidato a estable solo cuando su frecuencia supera un umbral—un mecanismo de denoising simple pero efectivo.

Three Specialist Agents collaborate through this memory:

Tres Agentes Especialistas colaboran a través de esta memoria:

- Extraction Agent (A_ext): Transforms each document chunk into structured memory entries—schemas, facts, and passages—with strict evidence grounding.

Conflict Detection Agent (A_det): Asynchronously monitors the fact layer, scanning for redundancy, structural anomalies, and logical inconsistencies using semantic similarity and ontology-level constraints.
Conflict Resolution Agent (A_res): When conflicts are found, retrieves provenance passages from ℳ_pas and adjudicates by comparing textual evidence. It filters invalid facts, merges redundant triples, and resolves temporal or granularity inconsistencies.

- Agente de Extracción (A_ext): Transforma cada fragmento de documento en entradas de memoria estructuradas—esquemas, hechos y pasajes—con estricto anclaje a evidencia.

Agente de Detección de Conflictos (A_det): Monitorea asíncronamente la capa de hechos, escaneando redundancia, anomalías estructurales e inconsistencias lógicas usando similitud semántica y restricciones de ontología.
Agente de Resolución de Conflictos (A_res): Cuando se encuentran conflictos, recupera pasajes de procedencia de ℳ_pas y adjudica comparando evidencia textual. Filtra hechos inválidos, fusiona triples redundantes y resuelve inconsistencias temporales o de granularidad.

The result is a Hierarchical Indexing Graph with three interconnected views: a Semantic Ontology Graph (schema-level types and relations), a Fact Graph (entity-relation triples for multi-hop reasoning), and a Source Evidence Graph (linking facts back to their originating passages). Every reasoning path remains traceable to grounded text.

El resultado es un Grafo de Indexación Jerárquico con tres vistas interconectadas: un Grafo de Ontología Semántica (tipos y relaciones a nivel de esquema), un Grafo de Hechos (triples entidad-relación para razonamiento multi-salto) y un Grafo de Evidencia Fuente (vinculando hechos con sus pasajes originales). Cada ruta de razonamiento permanece trazable hasta el texto fundamentado.

Memory-Guided Retrieval

Recuperación Guiada por Memoria

Retrieval happens in three stages. First, multi-layer memory filtering queries all three memory layers in parallel—schemas, facts, and passages—retaining only candidates above a similarity threshold. If no structural candidates survive, it falls back to standard RAG.

La recuperación ocurre en tres etapas. Primero, el filtrado de memoria multi-capa consulta las tres capas de memoria en paralelo—esquemas, hechos y pasajes—reteniendo solo candidatos por encima de un umbral de similitud. Si no sobreviven candidatos estructurales, recurre a RAG estándar.

Second, structure-aware node initialization projects the retrieved evidence onto the heterogeneous graph. Critically, type nodes with high degree (like “Person”) are regularized with a log-degree penalty—hub suppression—to prevent generic concepts from dominating the propagation. Passage nodes are scored by an information density term that rewards rare, informative entities.

Segundo, la inicialización de nodos consciente de estructura proyecta la evidencia recuperada en el grafo heterogéneo. Críticamente, los nodos de tipo con alto grado (como “Persona”) se regularizan con una penalización log-grado—supresión de hubs—para evitar que conceptos genéricos dominen la propagación. Los nodos de pasaje se puntúan con un término de densidad de información que recompensa entidades raras e informativas.

Third, Personalized PageRank propagates query-specific importance through the heterogeneous graph with a damping factor of λ=0.5, limiting propagation to local neighborhoods and reducing semantic drift. The top-K passages and top-M entities are passed to the LLM for generation.

Tercero, Personalized PageRank propaga la importancia específica de la consulta a través del grafo heterogéneo con un factor de amortiguamiento λ=0.5, limitando la propagación a vecindarios locales y reduciendo la deriva semántica. Los K pasajes principales y las M entidades principales se pasan al LLM para generación.

Results

Resultados

MemGraphRAG achieves 59.25% overall accuracy across four benchmarks (HotpotQA, 2WikiMultiHopQA, MuSiQue, G-Medical, G-Novel), outperforming all baselines including HippoRAG2 (55.79%), LinearRAG (57.15%), and GFM-RAG (55.27%). On individual benchmarks, it reaches up to 71.60% LLM-ACC on HotpotQA and 69.80% on 2WikiMultiHopQA—the highest among all methods.

MemGraphRAG logra 59.25% de precisión general en cuatro benchmarks (HotpotQA, 2WikiMultiHopQA, MuSiQue, G-Medical, G-Novel), superando todas las líneas base incluyendo HippoRAG2 (55.79%), LinearRAG (57.15%) y GFM-RAG (55.27%). En benchmarks individuales, alcanza hasta 71.60% LLM-ACC en HotpotQA y 69.80% en 2WikiMultiHopQA—el más alto entre todos los métodos.

In retrieval analysis on G-Bench (Medical), MemGraphRAG achieves the best or second-best in relevance across all four categories (Fact Retrieval, Complex Reasoning, Contextual, Creative Generation) while being the fastest—0.061s retrieval time vs. 0.123s for LinearRAG and 2.157s for HippoRAG2. It is the only method that consistently maintains both high recall and high relevance, closing the recall-relevance gap that plagues existing GraphRAG systems.

En el análisis de recuperación en G-Bench (Medical), MemGraphRAG logra el mejor o segundo mejor en relevancia en las cuatro categorías (Recuperación de Hechos, Razonamiento Complejo, Contextual, Generación Creativa) siendo el más rápido—0.061s de tiempo de recuperación vs. 0.123s de LinearRAG y 2.157s de HippoRAG2. Es el único método que mantiene consistentemente tanto alto recall como alta relevancia, cerrando la brecha recall-relevancia que afecta a los sistemas GraphRAG existentes.

Why This Matters for RAG Systems

Por Qué Esto Importa para los Sistemas RAG

MemGraphRAG’s core insight—that isolated local extraction is the root cause of GraphRAG failures—generalizes beyond the paper. Any system that processes knowledge in fragments without a persistent global state will accumulate noise and contradictions. The paper’s multi-agent architecture with shared memory offers a template: separate extraction from verification, ground corrections in provenance evidence, and let frequency-based thresholds act as a denoising filter.

La idea central de MemGraphRAG—que la extracción local aislada es la causa raíz de los fallos de GraphRAG—se generaliza más allá del paper. Cualquier sistema que procese conocimiento en fragmentos sin un estado global persistente acumulará ruido y contradicciones. La arquitectura multi-agente con memoria compartida del paper ofrece una plantilla: separa la extracción de la verificación, fundamenta las correcciones en evidencia de procedencia y deja que los umbrales basados en frecuencia actúen como filtro de denoising.

The paper also demonstrates that good retrieval is not just about recall—it is about precision and relevance. The hub suppression technique for high-degree type nodes is a practical insight for anyone building graph-based retrieval systems. And the fallback mechanism to standard RAG when structural evidence is insufficient shows a pragmatic design philosophy: use the graph when it helps, fall back when it does not.

El paper también demuestra que una buena recuperación no es solo cuestión de recall—es cuestión de precisión y relevancia. La técnica de supresión de hubs para nodos de tipo con alto grado es una idea práctica para cualquiera que construya sistemas de recuperación basados en grafos. Y el mecanismo de respaldo a RAG estándar cuando la evidencia estructural es insuficiente muestra una filosofía de diseño pragmática: usa el grafo cuando ayuda, recurre al respaldo cuando no.

Key Numbers

Números Clave

- 59.25% overall accuracy—state-of-the-art across 5 benchmarks

71.60% LLM-ACC on HotpotQA—best among all methods
69.80% on 2WikiMultiHopQA—best among all methods
0.061s retrieval time—fastest on G-Bench (vs. 0.123s LinearRAG, 2.157s HippoRAG2)
84.3% → 38.5%: the recall-relevance gap that plagues existing GraphRAG (high recall, low relevance)
3 conflict types resolved: mutually exclusive, temporal, granularity
3 agent roles: extraction, conflict detection, conflict resolution
3 memory layers: ontology, facts, passages
3 graph views: semantic ontology, fact, source evidence
Accepted at KDD 2026

- 59.25% de precisión general—estado del arte en 5 benchmarks

71.60% LLM-ACC en HotpotQA—mejor entre todos los métodos
69.80% en 2WikiMultiHopQA—mejor entre todos los métodos
0.061s tiempo de recuperación—más rápido en G-Bench (vs. 0.123s LinearRAG, 2.157s HippoRAG2)
84.3% → 38.5%: la brecha recall-relevancia que afecta a GraphRAG existente (alto recall, baja relevancia)
3 tipos de conflicto resueltos: mutuamente excluyentes, temporales, de granularidad
3 roles de agente: extracción, detección de conflictos, resolución de conflictos
3 capas de memoria: ontología, hechos, pasajes
3 vistas de grafo: ontología semántica, hechos, evidencia fuente
Aceptado en KDD 2026

References

Referencias

Wu, C., Xiang, Z., Tang, Y., Chen, Z., Zhang, Q., & Su, J. (2026). MemGraphRAG: Memory-based Multi-Agent System for Graph Retrieval-Augmented Generation. KDD 2026. arXiv:2606.00610. arxiv.org/abs/2606.00610
Code: github.com/XMUDeepLIT/MemGraphRAG
Edge, D., et al. (2024). GraphRAG: Unlocking LLM Discovery on Narrative Private Data.
Gutiérrez, B. J., et al. (2024). HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models.
Guo, Z., et al. (2024). LightRAG: Simple and Fast Retrieval-Augmented Generation.
Luo, T., et al. (2025). GFM-RAG: Graph Foundation Model for Retrieval Augmented Generation.
Zhuang, S., et al. (2025). LinearRAG: Dynamic Linear Graph RAG.

Wu, C., Xiang, Z., Tang, Y., Chen, Z., Zhang, Q., & Su, J. (2026). MemGraphRAG: Sistema Multi-Agente Basado en Memoria para Generación Aumentada por Recuperación de Grafos. KDD 2026. arXiv:2606.00610. arxiv.org/abs/2606.00610
Código: github.com/XMUDeepLIT/MemGraphRAG
Edge, D., et al. (2024). GraphRAG: Liberando el Descubrimiento de LLMs en Datos Narrativos Privados.
Gutiérrez, B. J., et al. (2024). HippoRAG: Memoria a Largo Plazo Neurobiológicamente Inspirada para Grandes Modelos de Lenguaje.
Guo, Z., et al. (2024). LightRAG: Generación Aumentada por Recuperación Simple y Rápida.
Luo, T., et al. (2025). GFM-RAG: Modelo Fundamental de Grafos para Generación Aumentada por Recuperación.
Zhuang, S., et al. (2025). LinearRAG: RAG de Grafos Lineal Dinámico.

MemGraphRAG: Memory-Based Multi-Agent Systems for Graph RAG

Related posts