SAGE: Self-Evolving Agentic Graph Memory — When Memory Graphs Learn to Improve Themselves

Long-term memory is emerging as the central bottleneck for language agents. As LLMs evolve from single-turn QA systems into general-purpose agents for multi-turn dialogue, personalized assistance, multi-agent collaboration, and open-environment exploration, the limiting factor is no longer whether a model can answer within the current context — it is whether it can accumulate, organize, invoke, and update memory over longer time scales. A new paper from Peking University and Beijing Institute of Technology, “SAGE: A Self-Evolving Agentic Graph-Memory Engine for Structure-Aware Associative Memory” (arXiv:2605.12061), takes a fundamentally different approach to this problem. Instead of treating graph memory as static retrieval middleware, SAGE models it as a dynamic, self-improving substrate that couples a memory writer and a Graph Foundation Model-based reader in a closed feedback loop.

La memoria a largo plazo está emergiendo como el cuello de botella central para los agentes lingüísticos. A medida que los LLMs evolucionan de sistemas de preguntas y respuestas de un solo turno a agentes de propósito general para diálogo multi-turno, asistencia personalizada, colaboración multi-agente y exploración en entornos abiertos, el factor limitante ya no es si un modelo puede responder dentro del contexto actual — sino si puede acumular, organizar, invocar y actualizar memoria a lo largo de escalas de tiempo más largas. Un nuevo paper de la Universidad de Pekín y el Instituto de Tecnología de Beijing, “SAGE: A Self-Evolving Agentic Graph-Memory Engine for Structure-Aware Associative Memory” (arXiv:2605.12061), adopta un enfoque fundamentalmente diferente a este problema. En lugar de tratar la memoria gráfica como middleware de recuperación estático, SAGE la modela como un sustrato dinámico y auto-mejorable que acopla un escritor de memoria y un lector basado en modelos fundamentales de grafos en un bucle de retroalimentación cerrado.

The Three Core Challenges of Agent Graph Memory

Los Tres Desafíos Centrales de la Memoria Gráfica para Agentes

The authors identify three fundamental challenges that current RAG and GraphRAG systems fail to address:

Los autores identifican tres desafíos fundamentales que los sistemas RAG y GraphRAG actuales no logran abordar:

Challenge I: Associative Reading from Fragmented Cues

Desafío I: Lectura Asociativa a Partir de Indicios Fragmentados

Agent memory requires more than retrieving text semantically similar to the query. A user query may mention only an episodic clue, an alias, or a distant conceptual hint, while the answer depends on intermediate entities that are not explicitly named. Standard vector retrieval tends to return locally similar snippets, and graph-based methods that start propagation from a small set of query-matched anchors often miss the bridge nodes that lie outside the activated region. The system must reconstruct a complete reasoning chain from sparse, fragmented, and indirect cues — what the authors call associative reading.

La memoria de agentes requiere más que recuperar texto semánticamente similar a la consulta. Una consulta de usuario puede mencionar solo una pista episódica, un alias o una pista conceptual distante, mientras que la respuesta depende de entidades intermedias que no se nombran explícitamente. La recuperación vectorial estándar tiende a devolver fragmentos localmente similares, y los métodos basados en grafos que comienzan la propagación desde un pequeño conjunto de anclas coincidentes con la consulta a menudo pierden los nodos puente que se encuentran fuera de la región activada. El sistema debe reconstruir una cadena de razonamiento completa a partir de indicios dispersos, fragmentados e indirectos — lo que los autores llaman lectura asociativa.

Challenge II: Learned Structural Use vs. Fixed Structural Expansion

Desafío II: Uso Estructural Aprendido vs. Expansión Estructural Fija

Many GraphRAG-style systems exploit graph structure through pre-built communities, paths, or heuristic expansion rules — but once the graph is constructed, the role of structure is largely fixed. A hub node is always broadly expanded, a bridge may be missed if not reached by the initial anchors, and noisy shortcuts get treated the same as useful evidence edges. For agent memory, where the graph is continuously updated by new interactions, a structure-aware reader must learn how topological patterns affect retrieval rather than blindly propagating over a fixed graph.

Muchos sistemas estilo GraphRAG explotan la estructura del grafo a través de comunidades pre-construidas, caminos o reglas de expansión heurísticas — pero una vez que el grafo está construido, el rol de la estructura está mayormente fijo. Un nodo hub siempre se expande ampliamente, un puente puede perderse si no es alcanzado por las anclas iniciales, y los atajos ruidosos se tratan igual que las aristas de evidencia útiles. Para la memoria de agentes, donde el grafo se actualiza continuamente con nuevas interacciones, un lector consciente de la estructura debe aprender cómo los patrones topológicos afectan la recuperación en lugar de propagarse ciegamente sobre un grafo fijo.

Challenge III: Self-Evolution of the Memory System

Desafío III: Auto-Evolución del Sistema de Memoria

Existing RAG and GraphRAG systems assume the external memory graph is already available. But for long-term agents, writing is itself part of the memory problem. Retrieval failures provide useful signals about what the graph lacks — if the reader repeatedly needs to traverse a long path to connect two concepts, the memory system should gradually strengthen or add a direct edge. A true agent memory system should not only optimize retrieval trajectories; it should optimize the memory graph itself through a closed loop where better reading exposes writing deficiencies, and better writing makes future retrieval more accurate and efficient.

Los sistemas RAG y GraphRAG existentes asumen que el grafo de memoria externo ya está disponible. Pero para agentes a largo plazo, escribir es en sí mismo parte del problema de memoria. Los fallos de recuperación proporcionan señales útiles sobre lo que le falta al grafo — si el lector necesita repetidamente recorrer un camino largo para conectar dos conceptos, el sistema de memoria debería fortalecer gradualmente o añadir una arista directa. Un verdadero sistema de memoria para agentes no solo debería optimizar las trayectorias de recuperación; debería optimizar el propio grafo de memoria a través de un bucle cerrado donde una mejor lectura expone deficiencias de escritura, y una mejor escritura hace que la recuperación futura sea más precisa y eficiente.

The SAGE Architecture: Writer–Reader Coupling

La Arquitectura SAGE: Acoplamiento Escritor-Lector

SAGE addresses these three challenges through a dual-component architecture:

SAGE aborda estos tres desafíos a través de una arquitectura de dos componentes:

Memory Writer: Policy-Based Graph Construction

Escritor de Memoria: Construcción de Grafos Basada en Políticas

The memory writer incrementally constructs structured graph memory from interaction histories. It uses a policy-based writing approach, modeled as a Markov Decision Process where each writing action (adding nodes, edges, or triples) is conditioned on the current graph state and the history of retrieval feedback. The writer receives a reader-aware writing reward: if the reader successfully retrieves the correct evidence chain using the current graph, the writer is reinforced; if retrieval fails, the writer learns to modify the graph structure — adding new connections, strengthening weak links, or pruning noisy edges.

El escritor de memoria construye incrementalmente memoria gráfica estructurada a partir de historiales de interacción. Utiliza un enfoque de escritura basada en políticas, modelado como un Proceso de Decisión Markoviano donde cada acción de escritura (añadir nodos, aristas o tripletes) está condicionada al estado actual del grafo y al historial de retroalimentación de recuperación. El escritor recibe una recompensa de escritura consciente del lector: si el lector recupera exitosamente la cadena de evidencia correcta usando el grafo actual, el escritor es reforzado; si la recuperación falla, el escritor aprende a modificar la estructura del grafo — añadiendo nuevas conexiones, fortaleciendo enlaces débiles o podando aristas ruidosas.

Memory Reader: Graph Foundation Model-Based Retrieval

Lector de Memoria: Recuperación Basada en Modelos Fundamentales de Grafos

The memory reader is built on a Graph Foundation Model (GFM) — a graph neural network pre-trained at scale to learn transferable structural representations. The reader comprises several cognitively-inspired components:

El lector de memoria está construido sobre un Modelo Fundamental de Grafos (GFM) — una red neuronal de grafos pre-entrenada a gran escala para aprender representaciones estructurales transferibles. El lector comprende varios componentes inspirados en la cognición:

Cognition-inspired Structured Query Planning: The query is decomposed into a structured plan that identifies which entities, relations, and subgraph patterns to retrieve — analogous to how human memory uses cues to narrow search.
Soft Addressing and Pre-activation of Memory Fragments: Rather than hard-matching entities, SAGE uses soft addressing to pre-activate a broad set of candidate memory fragments, enabling recovery from partial or noisy cues.
Synapse-inspired Structurally Conditioned Associative Propagation: Information propagates through the graph via a learned gating mechanism that weights edges by their structural role — bridges get higher weight, noisy shortcuts get suppressed.
Target Graph Calibration: The reader calibrates its retrieval to the current graph distribution, adapting to the writer's evolving graph structure without catastrophic forgetting.

Planificación de Consultas Estructuradas Inspirada en la Cognición: La consulta se descompone en un plan estructurado que identifica qué entidades, relaciones y patrones de subgrafo recuperar — análogo a cómo la memoria humana usa pistas para acotar la búsqueda.
Direccionamiento Suave y Pre-activación de Fragmentos de Memoria: En lugar de coincidencia dura de entidades, SAGE usa direccionamiento suave para pre-activar un conjunto amplio de fragmentos de memoria candidatos, permitiendo la recuperación a partir de pistas parciales o ruidosas.
Propagación Asociativa Estructuralmente Condicionada Inspirada en Sinapsis: La información se propaga a través del grafo mediante un mecanismo de compuerta aprendido que pondera las aristas por su rol estructural — los puentes obtienen mayor peso, los atajos ruidosos se suprimen.
Calibración del Grafo Objetivo: El lector calibra su recuperación a la distribución actual del grafo, adaptándose a la estructura gráfica en evolución del escritor sin olvido catastrófico.

The Self-Evolution Loop

El Bucle de Auto-Evolución

The key innovation in SAGE is the writer–reader self-evolution loop:

La innovación clave en SAGE es el bucle de auto-evolución escritor-lector:

The **writer** constructs or updates the graph memory from interaction histories.
The **reader** performs retrieval on the current graph, returning evidence chains and confidence scores.
The **reader's retrieval outcome** is fed back as a reward signal to the writer — if retrieval was successful with high confidence, the writer's current graph structure is reinforced; if retrieval failed or returned low-confidence evidence, the writer learns to restructure the graph.
Both components are updated in alternating fashion: the writer improves the graph for better retrieval, and the reader trains on the improved graph to become more accurate. This closed loop continues across self-evolution rounds.

El **escritor** construye o actualiza la memoria gráfica a partir de historiales de interacción.
El **lector** realiza la recuperación en el grafo actual, devolviendo cadenas de evidencia y puntuaciones de confianza.
El **resultado de la recuperación del lector** se retroalimenta como señal de recompensa al escritor — si la recuperación fue exitosa con alta confianza, la estructura actual del grafo del escritor se refuerza; si la recuperación falló o devolvió evidencia de baja confianza, el escritor aprende a reestructurar el grafo.
Ambos componentes se actualizan de forma alternada: el escritor mejora el grafo para una mejor recuperación, y el lector se entrena en el grafo mejorado para volverse más preciso. Este bucle cerrado continúa a través de rondas de auto-evolución.

The authors provide rigorous theoretical analysis supporting this loop, including a proof of approximate coordinate improvement (each update to either the writer or reader improves the joint memory utility under bounded approximation error) and stability guarantees under dynamic graph evolution.

Los autores proporcionan un riguroso análisis teórico que respalda este bucle, incluyendo una prueba de mejora de coordenadas aproximada (cada actualización del escritor o del lector mejora la utilidad conjunta de la memoria bajo error de aproximación acotado) y garantías de estabilidad bajo evolución dinámica del grafo.

Results: Across Benchmarks and Settings

Resultados: A Través de Benchmarks y Configuraciones

SAGE is evaluated across four categories of benchmarks: multi-hop QA, open-domain retrieval, domain-specific review QA, and long-term agent memory. The results are striking:

SAGE se evalúa en cuatro categorías de benchmarks: QA multi-salto, recuperación en dominio abierto, QA de reseñas de dominio específico y memoria de agente a largo plazo. Los resultados son notables:

Multi-hop QA

QA Multi-salto

After just two self-evolution rounds, SAGE achieves the best average rank across multi-hop QA datasets, outperforming strong baselines including standard RAG, GraphRAG variants, and prior Graph Foundation Model retrievers like GFM-RAG. The self-evolution loop demonstrably improves evidence recovery and answer grounding with each round.

Después de solo dos rondas de auto-evolución, SAGE logra el mejor rango promedio en los conjuntos de datos de QA multi-salto, superando líneas base fuertes incluyendo RAG estándar, variantes de GraphRAG y recuperadores previos de Modelos Fundamentales de Grafos como GFM-RAG. El bucle de auto-evolución mejora demostrablemente la recuperación de evidencia y la fundamentación de respuestas con cada ronda.

Zero-shot Open-Domain Transfer

Transferencia a Dominio Abierto Zero-shot

Without any domain-specific fine-tuning, SAGE reaches 82.5/91.6 Recall@2/5 on Natural Questions (NQ) — demonstrating that the structural priors learned during GFM pre-training transfer effectively to entirely new datasets and domains.

Sin ningún ajuste fino específico de dominio, SAGE alcanza 82.5/91.6 Recall@2/5 en Natural Questions (NQ) — demostrando que los prioris estructurales aprendidos durante el pre-entrenamiento del GFM se transfieren efectivamente a conjuntos de datos y dominios completamente nuevos.

Long-term Agent Memory (LongMemEval, HaluMem)

Memoria de Agente a Largo Plazo (LongMemEval, HaluMem)

On the LongMemEval and HaluMem benchmarks — which evaluate ultra-long conversational consistency, multi-session reasoning, and hallucination detection — SAGE improves multiple metrics across the board. The reader-writer feedback loop specifically helps reduce hallucination by improving the grounding of retrieved evidence.

En los benchmarks LongMemEval y HaluMem — que evalúan consistencia conversacional ultra-larga, razonamiento multi-sesión y detección de alucinaciones — SAGE mejora múltiples métricas en todos los aspectos. El bucle de retroalimentación lector-escritor ayuda específicamente a reducir las alucinaciones al mejorar la fundamentación de la evidencia recuperada.

Why This Matters

Por Qué Esto Importa

SAGE represents a conceptual shift in how we think about agent memory. The dominant paradigm — build a static index, retrieve from it, maybe update it periodically — treats memory as infrastructure. SAGE treats memory as a learnable, evolving system where the graph structure itself is optimized through use. This is closer to how biological memory works: the act of recalling a memory physically strengthens the neural pathways involved, and repeated retrieval reshapes the memory itself.

SAGE representa un cambio conceptual en cómo pensamos sobre la memoria de agentes. El paradigma dominante — construir un índice estático, recuperar de él, quizás actualizarlo periódicamente — trata la memoria como infraestructura. SAGE trata la memoria como un sistema aprendible y en evolución donde la estructura del grafo en sí misma se optimiza mediante el uso. Esto está más cerca de cómo funciona la memoria biológica: el acto de recordar un memory fortalece físicamente las vías neuronales involucradas, y la recuperación repetida remodela la memoria misma.

Three implications stand out:

Tres implicaciones destacan:

Graph Foundation Models meet agent memory. SAGE is among the first systems to apply GFMs — which have primarily been used for molecular and social network tasks — to the agent memory domain, demonstrating that pre-trained structural representations can dramatically improve retrieval from sparse cues.
Self-evolution is measurable. Each round of writer–reader feedback produces demonstrable improvements in retrieval metrics, suggesting that agent memory systems can be built to improve continuously rather than degrading or plateauing.
The write–read boundary dissolves. By coupling writing and reading in a feedback loop, SAGE suggests that the clean separation between "building the knowledge base" and "querying it" may be a false dichotomy for long-horizon agents.

Los Modelos Fundamentales de Grafos se encuentran con la memoria de agentes. SAGE es uno de los primeros sistemas en aplicar GFMs — que se han utilizado principalmente para tareas moleculares y de redes sociales — al dominio de la memoria de agentes, demostrando que las representaciones estructurales pre-entrenadas pueden mejorar dramáticamente la recuperación a partir de pistas dispersas.
La auto-evolución es medible. Cada ronda de retroalimentación escritor-lector produce mejoras demostrables en las métricas de recuperación, sugiriendo que los sistemas de memoria de agentes pueden construirse para mejorar continuamente en lugar de degradarse o estancarse.
El límite escritor-lector se disuelve. Al acoplar la escritura y la lectura en un bucle de retroalimentación, SAGE sugiere que la separación limpia entre "construir la base de conocimiento" y "consultarla" puede ser una falsa dicotomía para agentes de horizonte largo.

The Broader Landscape

El Panorama General

SAGE arrives in a rapidly maturing field. Systems like Zep/Graphiti (temporal knowledge graphs for agent memory), MAGMA (multi-graph architecture with four orthogonal relational views), A-MEM (Zettelkasten-inspired dynamic note networks), and Microsoft GraphRAG (community-based hierarchical summarization) have each advanced the state of the art. What distinguishes SAGE is the theoretically grounded self-evolution loop — the idea that the memory graph is not just a retrieval index but an object that should be optimized through retrieval outcomes.

SAGE llega en un campo que madura rápidamente. Sistemas como Zep/Graphiti (grafos de conocimiento temporales para memoria de agentes), MAGMA (arquitectura multi-grafo con cuatro vistas relacionales ortogonales), A-MEM (redes de notas dinámicas inspiradas en Zettelkasten) y Microsoft GraphRAG (resumenn jerárquico basado en comunidades) han avanzado cada uno el estado del arte. Lo que distingue a SAGE es el bucle de auto-evolución con fundamentos teóricos — la idea de que el grafo de memoria no es solo un índice de recuperación sino un objeto que debe optimizarse a través de los resultados de recuperación.

The code is available on GitHub, and the authors have provided extensive theoretical appendices covering stability analysis, sample complexity, and signal-to-noise ratio bounds. For anyone building long-horizon language agents, SAGE offers both a practical architecture and a theoretical framework for thinking about memory as a learnable, self-improving system.

El código está disponible en GitHub, y los autores han proporcionado extensos apéndices teóricos que cubren análisis de estabilidad, complejidad de muestras y límites de relación señal-ruido. Para cualquiera que construya agentes lingüísticos de horizonte largo, SAGE ofrece tanto una arquitectura práctica como un marco teórico para pensar en la memoria como un sistema aprendible y auto-mejorable.

References Referencias

Wang, J., Zhao, H., Pan, G., Wang, X., Wang, Y., Deng, Q., & Zhang, M. (2026). SAGE: A Self-Evolving Agentic Graph-Memory Engine for Structure-Aware Associative Memory. arXiv:2605.12061. arxiv.org/abs/2605.12061
Code: anonymous.4open.science
Luo, X. et al. (2025). GFM-RAG: Graph Foundation Model for Retrieval Augmented Generation. arXiv:2502.01113.
Edge, D. et al. (2024). From local to global: a graph RAG approach to query-focused summarization. Microsoft Research.
Jiang, Z. et al. (2026). MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents. arXiv:2601.03236.
Rasmussen, D. et al. (2025). Zep: A Temporal Knowledge Graph Architecture for Agent Memory. arXiv:2501.13956.
Xu, W. et al. (2025). A-MEM: Agentic Memory for LLM Agents. arXiv:2502.12110.
Yang, J. et al. (2026). Graph-based Agent Memory: Taxonomy, Techniques, and Applications. arXiv:2602.05665.
Gutiérrez, B. et al. (2024). HippoRAG: neurobiologically inspired long-term memory for large language models.
Park, J. et al. (2023). Generative Agents: Interactive Simulacra of Human Behavior. UIST 2023.

Wang, J., Zhao, H., Pan, G., Wang, X., Wang, Y., Deng, Q., & Zhang, M. (2026). SAGE: A Self-Evolving Agentic Graph-Memory Engine for Structure-Aware Associative Memory. arXiv:2605.12061. arxiv.org/abs/2605.12061
Código: anonymous.4open.science
Luo, X. et al. (2025). GFM-RAG: Graph Foundation Model for Retrieval Augmented Generation. arXiv:2502.01113.
Edge, D. et al. (2024). From local to global: a graph RAG approach to query-focused summarization. Microsoft Research.
Jiang, Z. et al. (2026). MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents. arXiv:2601.03236.
Rasmussen, D. et al. (2025). Zep: A Temporal Knowledge Graph Architecture for Agent Memory. arXiv:2501.13956.
Xu, W. et al. (2025). A-MEM: Agentic Memory for LLM Agents. arXiv:2502.12110.
Yang, J. et al. (2026). Graph-based Agent Memory: Taxonomy, Techniques, and Applications. arXiv:2602.05665.
Gutiérrez, B. et al. (2024). HippoRAG: neurobiologically inspired long-term memory for large language models.
Park, J. et al. (2023). Generative Agents: Interactive Simulacra of Human Behavior. UIST 2023.