La Memoria Agéntica Es un Memorándum, No Memoria Verdadera

Every major agentic framework—MemGPT, Reflexion, Voyager, Generative Agents—treats retrieval as the default persistence mechanism. The implicit promise is that richer external stores will eventually produce agents with richer inner lives. A new position paper from CUHK and Zhejiang University argues this is a category error with provable consequences: agents accumulate notes indefinitely without developing expertise, face a generalization ceiling on compositionally novel tasks that no increase in context size can overcome, and are structurally vulnerable to persistent memory poisoning. The paper is Contextual Agentic Memory is a Memo, Not True Memory (Xu, Dai & Zhang, April 2026).

Cada framework agéntico importante—MemGPT, Reflexion, Voyager, Generative Agents—trata la recuperación como el mecanismo de persistencia por defecto. La promesa implícita es que almacenes externos más ricos eventualmente producirán agentes con vidas internas más ricas. Un nuevo position paper de CUHK y la Universidad de Zhejiang argumenta que esto es un error de categoría con consecuencias demostrables: los agentes acumulan notas indefinidamente sin desarrollar expertise, enfrentan un techo de generalización en tareas composicionalmente novedosas que ningún aumento de contexto puede superar, y son estructuralmente vulnerables al envenenamiento persistente de memoria. El paper es Contextual Agentic Memory is a Memo, Not True Memory (Xu, Dai & Zhang, abril 2026).

The Memo vs. Memory Distinction

La Distinción Memorándum vs. Memoria

The paper’s central claim is that current agentic memory implements lookup, not learning. When an agent “remembers” using RAG or a vector store, what actually happens is: (1) during a past session, something was written to an external store; (2) during the current session, a query retrieves similar entries; (3) the entries are injected into context. The model weights are identical before and after the experience. The agent recorded it; it did not learn from it.

El reclamo central del paper es que la memoria agéntica actual implementa lookup, no aprendizaje. Cuando un agente “recuerda” usando RAG o un vector store, lo que realmente sucede es: (1) durante una sesión pasada, algo fue escrito a un almacén externo; (2) durante la sesión actual, una consulta recupera entradas similares; (3) las entradas se inyectan en el contexto. Los pesos del modelo son idénticos antes y después de la experiencia. El agente la registró; no aprendió de ella.

The paper formalizes this through two structurally distinct paths. Every technique that changes what an LLM agent outputs belongs to one of two categories: Change θ (modify weights via pre-training, fine-tuning, RL, or any gradient-based update) or Change C (inject content into the context window via prompting, RAG, scratchpads, or any form of context engineering). The critical asymmetry is not compression ratio but generativity: θ-compression is generative (the model recombines weight-encoded rules to handle unseen inputs); C-compression is retrieval-based (the model can only use what is explicitly present in context). All current deployed agentic memory is C-engineering.

El paper formaliza esto a través de dos caminos estructuralmente distintos. Cada técnica que cambia lo que un agente LLM produce pertenece a una de dos categorías: Cambiar θ (modificar pesos vía pre-training, fine-tuning, RL, o cualquier actualización basada en gradientes) o Cambiar C (inyectar contenido en la ventana de contexto vía prompting, RAG, scratchpads, o cualquier forma de ingeniería de contexto). La asimetría crítica no es la ratio de compresión sino la generatividad: la compresión-θ es generativa (el modelo recombinar reglas codificadas en pesos para manejar entradas no vistas); la compresión-C está basada en recuperación (el modelo solo puede usar lo que está explícitamente presente en el contexto). Toda la memoria agéntica desplegada actualmente es ingeniería-C.

Four Structural Limitations

Cuatro Limitaciones Estructurales

The paper advances four claims—definitional, structural, dynamic, and security—each with formal or empirical support.

El paper avanza cuatro reclamos—definicional, estructural, dinámico y de seguridad—cada uno con soporte formal o empírico.

1. Definitional: Lookup Cannot Extrapolate

1. Definicional: El Lookup No Puede Extrapolarse

Retrieval generalizes by similarity to stored cases. Rule-based cognition generalizes by applying abstract principles extracted from—but no longer dependent on—those cases. When a chess grandmaster encounters a novel position, they reason from deeply internalized principles, not from the most similar position they’ve memorized. When a language agent encounters a novel question for which no retrieved document provides a direct answer, agentic memory offers nothing. Current systems implement exemplar-based cognition in perpetuity with no mechanism for the transition to rule-based cognition.

La recuperación generaliza por similitud a casos almacenados. La cognición basada en reglas generaliza aplicando principios abstractos extraídos de—pero ya no dependientes de—esos casos. Cuando un gran maestro de ajedrez encuentra una posición novedosa, razona a partir de principios profundamente internalizados, no desde la posición más similar que ha memorizado. Cuando un agente de lenguaje encuentra una pregunta novedosa para la cual ningún documento recuperado proporciona una respuesta directa, la memoria agéntica no ofrece nada. Los sistemas actuales implementan cognición basada en ejemplares a perpetuidad sin mecanismo para la transición a cognición basada en reglas.

2. Structural: The Generalization Gap (Theorem 1)

2. Estructural: El Gap de Generalización (Teorema 1)

The paper’s theoretical core is Theorem 1 (Compositional Sample Complexity Separation). Given k base concepts and a composition operator ⊕, the question is: how many training examples does each paradigm need to generalize to unseen concept combinations?

El núcleo teórico del paper es el Teorema 1 (Separación de Complejidad de Muestras Composicional). Dados k conceptos base y un operador de composición ⊕, la pregunta es: ¿cuántos ejemplos de entrenamiento necesita cada paradigma para generalizar a combinaciones de conceptos no vistas?

- **Retrieval** requires n_R ≥ Ω(k²) stored examples—each stored case covers exactly one point in the k²-sized space of concept pairs. You must see nearly every combination to answer correctly.

- **Retrieval** requiere n_R ≥ Ω(k²) ejemplos almacenados—cada caso almacenado cubre exactamente un punto en el espacio de tamaño k² de pares de conceptos. Debes ver casi cada combinación para responder correctamente.

- **Parametric learning** requires n_P = O(d/δ) examples, where d is the VC dimension of the hypothesis class—potentially orders of magnitude fewer. The composition rule is *learned*, not *stored*.

- **Aprendizaje paramétrico** requiere n_P = O(d/δ) ejemplos, donde d es la dimensión VC de la clase de hipótesis—potencialmente órdenes de magnitud menos. La regla de composición se *aprende*, no se *almacena*.

- **The separation ratio**: n_R/n_P = Ω(k²/d). For structured operators with d=O(k), the gap is Ω(k). For simple operators with d=O(1), it's Ω(k²). No increase in context window size or retrieval quality closes this gap—the bound is independent of both.

- **La ratio de separación**: n_R/n_P = Ω(k²/d). Para operadores estructurados con d=O(k), el gap es Ω(k). Para operadores simples con d=O(1), es Ω(k²). Ningún aumento del tamaño de la ventana de contexto o la calidad de recuperación cierra este gap—el límite es independiente de ambos.

The proof uses a clean assumption: the frozen model achieves accuracy α ≤ ᾱ < 1 on held-out composition pairs given K retrieved demonstrations. The paper shows via Fano’s inequality that ᾱ < 1 is itself a theorem (not merely an assumption) for any operator class with log|H| > K·log|Y|. When ⊕ is broadly general (already well-represented in pretraining), ᾱ → 1 and the separation vanishes—the assumption binds precisely in domain-specific deployments where persistent agents are most valuable.

La prueba usa un supuesto limpio: el modelo congelado alcanza precisión α ≤ ᾱ < 1 en pares de composición de validación dados K demostraciones recuperadas. El paper muestra vía la desigualdad de Fano que ᾱ < 1 es en sí mismo un teorema (no meramente un supuesto) para cualquier clase de operador con log|H| > K·log|Y|. Cuando ⊕ es ampliamente general (ya bien representado en el pretraining), ᾱ → 1 y la separación desaparece—el supuesto se aplica precisamente en despliegues específicos de dominio donde los agentes persistentes son más valiosos.

Empirical support: Yao et al. (2026) showed that ParamMem (encoding reflections into weights) outperforms external storage, with the gap growing precisely on novel compositional tasks. Ovadia et al. (2024) found RAG excels at rare-entity recall but cannot improve compositional reasoning beyond the base model’s capacity, while fine-tuning improves reasoning systematically even without retrieved documents.

Soporte empírico: Yao et al. (2026) mostraron que ParamMem (codificar reflexiones en pesos) supera al almacenamiento externo, con el gap creciendo precisamente en tareas composicionales novedosas. Ovadia et al. (2024) encontraron que RAG destaca en recall de entidades raras pero no puede mejorar el razonamiento composicional más allá de la capacidad del modelo base, mientras que el fine-tuning mejora el razonamiento sistemáticamente incluso sin documentos recuperados.

3. Dynamic: The Frozen Novice Problem

3. Dinámico: El Problema del Novato Congelado

Theorem 1 describes a static property. The frozen novice problem describes the dynamic consequence: agents operating exclusively via C-engineering cannot develop expertise over time. Every session begins with the same frozen weights; the agent is permanently doing .predict(C), never .train(). No matter how many experiences are logged, the weights encoding composition rules remain those of the original model.

El Teorema 1 describe una propiedad estática. El problema del novato congelado describe la consecuencia dinámica: los agentes que operan exclusivamente vía ingeniería-C no pueden desarrollar expertise con el tiempo. Cada sesión comienza con los mismos pesos congelados; el agente está permanentemente haciendo .predict(C), nunca .train(). No importa cuántas experiencias se registren, los pesos que codifican las reglas de composición siguen siendo los del modelo original.

The most robust finding in cognitive science is that expertise emerges not from accumulating examples, but from structural reorganization of knowledge. Chi et al. (1981) showed physics novices categorize problems by surface features (“inclined plane problems”) while experts categorize by deep structural principles (“conservation of energy problems”). This reorganization requires weight changes in the brain: the formation of generalized, distributed representations in the neocortex through repeated consolidation of hippocampal traces (McClelland et al., 1995). An agent that accumulates experience only through retrieval cannot make this transition. Each session it is the same model with a larger database.

El hallazgo más robusto en ciencia cognitiva es que la expertise emerge no de acumular ejemplos, sino de la reorganización estructural del conocimiento. Chi et al. (1981) mostraron que los novatos en física categorizan problemas por características superficiales (“problemas de planos inclinados”) mientras que los expertos categorizan por principios estructurales profundos (“problemas de conservación de energía”). Esta reorganización requiere cambios de peso en el cerebro: la formación de representaciones generalizadas y distribuidas en el neocórtex a través de la consolidación repetida de trazas hippocampales (McClelland et al., 1995). Un agente que acumula experiencia solo a través de recuperación no puede hacer esta transición. Cada sesión es el mismo modelo con una base de datos más grande.

The MemGPT team acknowledge that “simply appending raw experience is a poor approximation of learning” and propose “sleep-time compute”—but their consolidation rewrites context tokens, not weights. Compressing text in an external store produces better-formatted notes; the agent is still a well-organized novice.

El equipo de MemGPT reconoce que “simplemente agregar experiencia cruda es una aproximación pobre del aprendizaje” y propone “compute en tiempo de sueño”—pero su consolidación reescribe tokens de contexto, no pesos. Comprimir texto en un almacén externo produce notas mejor formateadas; el agente sigue siendo un novato bien organizado.

4. Security: Persistent Compromise

4. Seguridad: Compromiso Persistente

Without persistent memory, a prompt injection is transient—one session, then clean. With agentic memory, injected content is written to the store and retrieved in every subsequent session, converting a one-time hijack (evil¹) into a persistent one (evil²). The empirical evidence is stark: MINJA achieved a 98.2% injection success rate with instructions persisting across sessions; PoisonedRAG shows that five adversarial texts per query achieve 90% attack success against a knowledge base of millions.

Sin memoria persistente, una inyección de prompt es transitoria—una sesión, y listo. Con memoria agéntica, el contenido inyectado se escribe en el almacén y se recupera en cada sesión subsecuente, convirtiendo un secuestro único (evil¹) en uno persistente (evil²). La evidencia empírica es contundente: MINJA logró una tasa de éxito de inyección del 98.2% con instrucciones persistiendo entre sesiones; PoisonedRAG muestra que cinco textos adversariales por consulta alcanzan un 90% de éxito de ataque contra una base de conocimiento de millones de entradas.

The attack surface asymmetry is structural: compromising C requires a single successful injection during normal operation; compromising θ requires training-time access or weight editing—capabilities unavailable through normal queries. Compromised weight checkpoints are detectable through activation analysis; poisoned memory entries require semantic audit of a store that grows unboundedly.

La asimetría de la superficie de ataque es estructural: comprometer C requiere una única inyección exitosa durante operación normal; comprometer θ requiere acceso al entrenamiento o edición de pesos—capacidades no disponibles a través de consultas normales. Los checkpoints de pesos comprometidos son detectables mediante análisis de activaciones; las entradas de memoria envenenadas requieren auditoría semántica de un almacén que crece ilimitadamente.

The Complementary Learning Systems Argument

El Argumento de Sistemas de Aprendizaje Complementarios

The paper draws on Complementary Learning Systems (CLS) theory from neuroscience. Biological intelligence solved this problem by pairing fast hippocampal exemplar storage with slow neocortical weight consolidation during sleep. The hippocampus provides rapid episodic storage; the neocortex encodes slow, distributed, rule-based representations. Current AI agents implement only the hippocampal half; no consolidation path to the neocortical half exists in any deployed system.

El paper se basa en la teoría de Sistemas de Aprendizaje Complementarios (CLS) de la neurociencia. La inteligencia biológica resolvió este problema emparejando almacenamiento hipocampal rápido de ejemplares con consolidación neocortical lenta de pesos durante el sueño. El hipocampo proporciona almacenamiento episódico rápido; el neocórtex codifica representaciones lentas, distribuidas y basadas en reglas. Los agentes de IA actuales implementan solo la mitad hipocampal; no existe un camino de consolidación hacia la mitad neocortical en ningún sistema desplegado.

The Experience Compression Spectrum (Zhang et al., 2026) supports this: memory, skills, and rules lie on a compression spectrum—raw traces (low compression) → natural-language skills (medium) → parameterized rules (high). Current systems implement all three as context-based lookup, confusing points on the spectrum with each other. True rule-based cognition requires the high-compression endpoint (weight-based encoding), not storing skills as retrievable text.

El Espectro de Compresión de Experiencia (Zhang et al., 2026) respalda esto: memoria, skills y reglas yacen en un espectro de compresión—trazas crudas (baja compresión) → skills en lenguaje natural (media) → reglas parametrizadas (alta). Los sistemas actuales implementan los tres como lookup basado en contexto, confundiendo puntos del espectro entre sí. La cognición verdaderamente basada en reglas requiere el endpoint de alta compresión (codificación basada en pesos), no almacenar skills como texto recuperable.

The Call to Action: Build the Consolidation Channel

El Llamado a la Acción: Construir el Canal de Consolidación

The paper argues that agentic memory and parametric learning are complementary, not competing. The right architecture combines fast episodic lookup with a consolidation channel that periodically encodes distilled experience into weights—the AI analog of biological sleep. Three design principles:

El paper argumenta que la memoria agéntica y el aprendizaje paramétrico son complementarios, no competidores. La arquitectura correcta combina lookup episódico rápido con un canal de consolidación que codifica periódicamente experiencia destilada en pesos—el análogo en IA del sueño biológico. Tres principios de diseño:

1. **Treat retrieval as episodic lookup.** Vector stores and RAG are the right tools for recent context, tool outputs, and reference retrieval. They should not be expected to produce generalization.

1. **Tratar la recuperación como lookup episódico.** Los vector stores y RAG son las herramientas correctas para contexto reciente, salidas de herramientas y recuperación de referencias. No se debe esperar que produzcan generalización.

2. **Build the consolidation pathway.** The specific mechanism—periodic fine-tuning, knowledge editing (MEMIT), test-time training (TTT layers), self-distillation from traces (Skill-SD), or LoRA adapters—is a design choice. What matters is that the pathway exists and runs asynchronously. The building blocks already exist.

2. **Construir el camino de consolidación.** El mecanismo específico—fine-tuning periódico, edición de conocimiento (MEMIT), entrenamiento en tiempo de test (capas TTT), self-distillation desde trazas (Skill-SD), o adaptadores LoRA—es una decisión de diseño. Lo que importa es que el camino exista y corra de forma asíncrona. Los bloques de construcción ya existen.

3. **Consolidation must be safe.** Weight checkpoints can be versioned and rolled back at bounded cost, whereas expunging poisoned entries from an unboundedly growing store is intractable. The pipeline requires **trace provenance**, **versioned checkpoints**, and **regression guards**—engineering requirements, not open research problems.

3. **La consolidación debe ser segura.** Los checkpoints de pesos pueden ser versionados y revertidos a costo acotado, mientras que expurgar entradas envenenadas de un almacén que crece ilimitadamente es intratable. El pipeline requiere **proveniencia de trazas**, **checkpoints versionados** y **guardias de regresión**—requisitos de ingeniería, no problemas de investigación abiertos.

The paper also calls on benchmark designers to measure learning, not recall: the critical missing metric is Compositional Generalization over Time (CGT)—does an agent’s ability to handle novel concept combinations improve with experience? A genuinely learning agent shows accuracy increasing with sessions; a pure-retrieval agent shows accuracy flat at baseline.

El paper también llama a los diseñadores de benchmarks a medir aprendizaje, no recall: la métrica crítica faltante es la Generalización Composicional en el Tiempo (CGT)—¿la habilidad de un agente para manejar combinaciones novedosas de conceptos mejora con la experiencia? Un agente genuinamente aprendiente muestra precisión incrementando con las sesiones; un agente de pura recuperación muestra precisión plana en la línea base.

Implications for Agent Architecture

Implicaciones para la Arquitectura de Agentes

For practitioners building agentic systems with DSPy, Dapr, and similar frameworks, the paper has concrete implications:

Para practitioners construyendo sistemas agénticos con DSPy, Dapr y frameworks similares, el paper tiene implicaciones concretas:

- **Don't conflate more retrieval with more intelligence.** The Ω(k²) coverage requirement means retrieval scales quadratically with concept diversity while parametric learning scales with the complexity of the underlying rule. For any non-trivial domain, retrieval alone will hit a ceiling.

- **No confundir más recuperación con más inteligencia.** El requisito de cobertura Ω(k²) significa que la recuperación escala cuadráticamente con la diversidad de conceptos mientras que el aprendizaje paramétrico escala con la complejidad de la regla subyacente. Para cualquier dominio no trivial, la recuperación sola alcanzará un techo.

- **Design for sleep.** Every persistent agent needs an offline consolidation phase. This is not optional—it's the difference between an agent that accumulates files and one that develops expertise. The analog of CLS consolidation is offline fine-tuning on distilled agent experience: the moment the agent's experience changes what the model *is*, not merely what it *has written down*.

- **Diseñar para dormir.** Cada agente persistente necesita una fase de consolidación offline. Esto no es opcional—es la diferencia entre un agente que acumula archivos y uno que desarrolla expertise. El análogo de la consolidación CLS es el fine-tuning offline sobre experiencia destilada del agente: el momento en que la experiencia del agente cambia lo que el modelo *es*, no meramente lo que *ha escrito*.

- **Treat memory poisoning as a structural threat.** If your agent writes to a persistent store and retrieves from it, any successful prompt injection becomes permanent. Versioned weight checkpoints with rollback are more auditable than semantic scanning of an unbounded text store.

- **Tratar el envenenamiento de memoria como una amenaza estructural.** Si tu agente escribe a un almacén persistente y recupera de él, cualquier inyección de prompt exitosa se vuelve permanente. Los checkpoints de pesos versionados con rollback son más auditables que el escaneo semántico de un almacén de texto no acotado.

- **The gap is real and measurable.** Theorem 1 doesn't say retrieval is useless—it says retrieval and parametric learning solve different problems with different scaling properties. The right architecture uses both: retrieval for episodic recall, consolidation for genuine learning.

- **El gap es real y medible.** El Teorema 1 no dice que la recuperación sea inútil—dice que la recuperación y el aprendizaje paramétrico resuelven problemas diferentes con propiedades de escalado diferentes. La arquitectura correcta usa ambos: recuperación para recall episódico, consolidación para aprendizaje genuino.

References

Referencias

Xu, B., Dai, X. & Zhang, K. (2026). *Contextual Agentic Memory is a Memo, Not True Memory*. arxiv.org/abs/2604.27707
McClelland, J.L. et al. (1995). *Why there are complementary learning systems in the hippocampus and neocortex*. Psychological Review.
Yao, S. et al. (2026). *ParamMem: Augmenting Language Agents with Parametric Reflective Memory*.
Chi, M.T.H. et al. (1981). *Categorization and representation of physics problems by experts and novices*. Cognitive Science.
Zhang, Y. et al. (2026). *Experience Compression Spectrum: Unifying Memory, Skills, and Rules in LLM Agents*.
Dong, X. et al. (2026). *MINJA: Memory Injection Attacks on LLM Agents via Query-Only Interaction*.
Meng, K. et al. (2023). *MEMIT: Mass-Editing Memory in a Transformer*. arxiv.org/abs/2210.07229
Ovadia, O. et al. (2024). *Fine-tuning or Retrieval? Comparing Knowledge Injection in LLMs*.

Xu, B., Dai, X. & Zhang, K. (2026). *La Memoria Agéntica Contextual Es un Memorándum, No Memoria Verdadera*. arxiv.org/abs/2604.27707
McClelland, J.L. et al. (1995). *Por qué hay sistemas de aprendizaje complementarios en el hipocampo y el neocórtex*. Psychological Review.
Yao, S. et al. (2026). *ParamMem: Aumentando Agentes de Lenguaje con Memoria Reflexiva Paramétrica*.
Chi, M.T.H. et al. (1981). *Categorización y representación de problemas de física por expertos y novatos*. Cognitive Science.
Zhang, Y. et al. (2026). *Espectro de Compresión de Experiencia: Unificando Memoria, Skills y Reglas en Agentes LLM*.
Dong, X. et al. (2026). *MINJA: Ataques de Inyección de Memoria en Agentes LLM vía Interacción Solo-Consulta*.
Meng, K. et al. (2023). *MEMIT: Edición Masiva de Memoria en un Transformer*. arxiv.org/abs/2210.07229
Ovadia, O. et al. (2024). *¿Fine-tuning o Retrieval? Comparando Inyección de Conocimiento en LLMs*.