Every major agentic framework—MemGPT, Reflexion, Voyager, Generative Agents—treats retrieval as the default persistence mechanism. The implicit promise is that richer external stores will eventually produce agents with richer inner lives. A new position paper from CUHK and Zhejiang University argues this is a category error with provable consequences: agents accumulate notes indefinitely without developing expertise, face a generalization ceiling on compositionally novel tasks that no increase in context size can overcome, and are structurally vulnerable to persistent memory poisoning. The paper is Contextual Agentic Memory is a Memo, Not True Memory (Xu, Dai & Zhang, April 2026).
Cada framework agéntico importante—MemGPT, Reflexion, Voyager, Generative Agents—trata la recuperación como el mecanismo de persistencia por defecto. La promesa implícita es que almacenes externos más ricos eventualmente producirán agentes con vidas internas más ricas. Un nuevo position paper de CUHK y la Universidad de Zhejiang argumenta que esto es un error de categoría con consecuencias demostrables: los agentes acumulan notas indefinidamente sin desarrollar expertise, enfrentan un techo de generalización en tareas composicionalmente novedosas que ningún aumento de contexto puede superar, y son estructuralmente vulnerables al envenenamiento persistente de memoria. El paper es Contextual Agentic Memory is a Memo, Not True Memory (Xu, Dai & Zhang, abril 2026).
The Memo vs. Memory Distinction
La Distinción Memorándum vs. Memoria
The paper’s central claim is that current agentic memory implements lookup, not learning. When an agent “remembers” using RAG or a vector store, what actually happens is: (1) during a past session, something was written to an external store; (2) during the current session, a query retrieves similar entries; (3) the entries are injected into context. The model weights are identical before and after the experience. The agent recorded it; it did not learn from it.
El reclamo central del paper es que la memoria agéntica actual implementa lookup, no aprendizaje. Cuando un agente “recuerda” usando RAG o un vector store, lo que realmente sucede es: (1) durante una sesión pasada, algo fue escrito a un almacén externo; (2) durante la sesión actual, una consulta recupera entradas similares; (3) las entradas se inyectan en el contexto. Los pesos del modelo son idénticos antes y después de la experiencia. El agente la registró; no aprendió de ella.
The paper formalizes this through two structurally distinct paths. Every technique that changes what an LLM agent outputs belongs to one of two categories: Change θ (modify weights via pre-training, fine-tuning, RL, or any gradient-based update) or Change C (inject content into the context window via prompting, RAG, scratchpads, or any form of context engineering). The critical asymmetry is not compression ratio but generativity: θ-compression is generative (the model recombines weight-encoded rules to handle unseen inputs); C-compression is retrieval-based (the model can only use what is explicitly present in context). All current deployed agentic memory is C-engineering.
El paper formaliza esto a través de dos caminos estructuralmente distintos. Cada técnica que cambia lo que un agente LLM produce pertenece a una de dos categorías: Cambiar θ (modificar pesos vía pre-training, fine-tuning, RL, o cualquier actualización basada en gradientes) o Cambiar C (inyectar contenido en la ventana de contexto vía prompting, RAG, scratchpads, o cualquier forma de ingeniería de contexto). La asimetría crítica no es la ratio de compresión sino la generatividad: la compresión-θ es generativa (el modelo recombinar reglas codificadas en pesos para manejar entradas no vistas); la compresión-C está basada en recuperación (el modelo solo puede usar lo que está explícitamente presente en el contexto). Toda la memoria agéntica desplegada actualmente es ingeniería-C.
Four Structural Limitations
Cuatro Limitaciones Estructurales
The paper advances four claims—definitional, structural, dynamic, and security—each with formal or empirical support.
El paper avanza cuatro reclamos—definicional, estructural, dinámico y de seguridad—cada uno con soporte formal o empírico.
1. Definitional: Lookup Cannot Extrapolate
1. Definicional: El Lookup No Puede Extrapolarse
Retrieval generalizes by similarity to stored cases. Rule-based cognition generalizes by applying abstract principles extracted from—but no longer dependent on—those cases. When a chess grandmaster encounters a novel position, they reason from deeply internalized principles, not from the most similar position they’ve memorized. When a language agent encounters a novel question for which no retrieved document provides a direct answer, agentic memory offers nothing. Current systems implement exemplar-based cognition in perpetuity with no mechanism for the transition to rule-based cognition.
La recuperación generaliza por similitud a casos almacenados. La cognición basada en reglas generaliza aplicando principios abstractos extraídos de—pero ya no dependientes de—esos casos. Cuando un gran maestro de ajedrez encuentra una posición novedosa, razona a partir de principios profundamente internalizados, no desde la posición más similar que ha memorizado. Cuando un agente de lenguaje encuentra una pregunta novedosa para la cual ningún documento recuperado proporciona una respuesta directa, la memoria agéntica no ofrece nada. Los sistemas actuales implementan cognición basada en ejemplares a perpetuidad sin mecanismo para la transición a cognición basada en reglas.
2. Structural: The Generalization Gap (Theorem 1)
2. Estructural: El Gap de Generalización (Teorema 1)
The paper’s theoretical core is Theorem 1 (Compositional Sample Complexity Separation). Given k base concepts and a composition operator ⊕, the question is: how many training examples does each paradigm need to generalize to unseen concept combinations?
El núcleo teórico del paper es el Teorema 1 (Separación de Complejidad de Muestras Composicional). Dados k conceptos base y un operador de composición ⊕, la pregunta es: ¿cuántos ejemplos de entrenamiento necesita cada paradigma para generalizar a combinaciones de conceptos no vistas?
The proof uses a clean assumption: the frozen model achieves accuracy α ≤ ᾱ < 1 on held-out composition pairs given K retrieved demonstrations. The paper shows via Fano’s inequality that ᾱ < 1 is itself a theorem (not merely an assumption) for any operator class with log|H| > K·log|Y|. When ⊕ is broadly general (already well-represented in pretraining), ᾱ → 1 and the separation vanishes—the assumption binds precisely in domain-specific deployments where persistent agents are most valuable.
La prueba usa un supuesto limpio: el modelo congelado alcanza precisión α ≤ ᾱ < 1 en pares de composición de validación dados K demostraciones recuperadas. El paper muestra vía la desigualdad de Fano que ᾱ < 1 es en sí mismo un teorema (no meramente un supuesto) para cualquier clase de operador con log|H| > K·log|Y|. Cuando ⊕ es ampliamente general (ya bien representado en el pretraining), ᾱ → 1 y la separación desaparece—el supuesto se aplica precisamente en despliegues específicos de dominio donde los agentes persistentes son más valiosos.
Empirical support: Yao et al. (2026) showed that ParamMem (encoding reflections into weights) outperforms external storage, with the gap growing precisely on novel compositional tasks. Ovadia et al. (2024) found RAG excels at rare-entity recall but cannot improve compositional reasoning beyond the base model’s capacity, while fine-tuning improves reasoning systematically even without retrieved documents.
Soporte empírico: Yao et al. (2026) mostraron que ParamMem (codificar reflexiones en pesos) supera al almacenamiento externo, con el gap creciendo precisamente en tareas composicionales novedosas. Ovadia et al. (2024) encontraron que RAG destaca en recall de entidades raras pero no puede mejorar el razonamiento composicional más allá de la capacidad del modelo base, mientras que el fine-tuning mejora el razonamiento sistemáticamente incluso sin documentos recuperados.
3. Dynamic: The Frozen Novice Problem
3. Dinámico: El Problema del Novato Congelado
Theorem 1 describes a static property. The frozen novice problem describes the dynamic consequence: agents operating exclusively via C-engineering cannot develop expertise over time. Every session begins with the same frozen weights; the agent is permanently doing .predict(C), never .train(). No matter how many experiences are logged, the weights encoding composition rules remain those of the original model.
El Teorema 1 describe una propiedad estática. El problema del novato congelado describe la consecuencia dinámica: los agentes que operan exclusivamente vía ingeniería-C no pueden desarrollar expertise con el tiempo. Cada sesión comienza con los mismos pesos congelados; el agente está permanentemente haciendo .predict(C), nunca .train(). No importa cuántas experiencias se registren, los pesos que codifican las reglas de composición siguen siendo los del modelo original.
The most robust finding in cognitive science is that expertise emerges not from accumulating examples, but from structural reorganization of knowledge. Chi et al. (1981) showed physics novices categorize problems by surface features (“inclined plane problems”) while experts categorize by deep structural principles (“conservation of energy problems”). This reorganization requires weight changes in the brain: the formation of generalized, distributed representations in the neocortex through repeated consolidation of hippocampal traces (McClelland et al., 1995). An agent that accumulates experience only through retrieval cannot make this transition. Each session it is the same model with a larger database.
El hallazgo más robusto en ciencia cognitiva es que la expertise emerge no de acumular ejemplos, sino de la reorganización estructural del conocimiento. Chi et al. (1981) mostraron que los novatos en física categorizan problemas por características superficiales (“problemas de planos inclinados”) mientras que los expertos categorizan por principios estructurales profundos (“problemas de conservación de energía”). Esta reorganización requiere cambios de peso en el cerebro: la formación de representaciones generalizadas y distribuidas en el neocórtex a través de la consolidación repetida de trazas hippocampales (McClelland et al., 1995). Un agente que acumula experiencia solo a través de recuperación no puede hacer esta transición. Cada sesión es el mismo modelo con una base de datos más grande.
The MemGPT team acknowledge that “simply appending raw experience is a poor approximation of learning” and propose “sleep-time compute”—but their consolidation rewrites context tokens, not weights. Compressing text in an external store produces better-formatted notes; the agent is still a well-organized novice.
El equipo de MemGPT reconoce que “simplemente agregar experiencia cruda es una aproximación pobre del aprendizaje” y propone “compute en tiempo de sueño”—pero su consolidación reescribe tokens de contexto, no pesos. Comprimir texto en un almacén externo produce notas mejor formateadas; el agente sigue siendo un novato bien organizado.
4. Security: Persistent Compromise
4. Seguridad: Compromiso Persistente
Without persistent memory, a prompt injection is transient—one session, then clean. With agentic memory, injected content is written to the store and retrieved in every subsequent session, converting a one-time hijack (evil¹) into a persistent one (evil²). The empirical evidence is stark: MINJA achieved a 98.2% injection success rate with instructions persisting across sessions; PoisonedRAG shows that five adversarial texts per query achieve 90% attack success against a knowledge base of millions.
Sin memoria persistente, una inyección de prompt es transitoria—una sesión, y listo. Con memoria agéntica, el contenido inyectado se escribe en el almacén y se recupera en cada sesión subsecuente, convirtiendo un secuestro único (evil¹) en uno persistente (evil²). La evidencia empírica es contundente: MINJA logró una tasa de éxito de inyección del 98.2% con instrucciones persistiendo entre sesiones; PoisonedRAG muestra que cinco textos adversariales por consulta alcanzan un 90% de éxito de ataque contra una base de conocimiento de millones de entradas.
The attack surface asymmetry is structural: compromising C requires a single successful injection during normal operation; compromising θ requires training-time access or weight editing—capabilities unavailable through normal queries. Compromised weight checkpoints are detectable through activation analysis; poisoned memory entries require semantic audit of a store that grows unboundedly.
La asimetría de la superficie de ataque es estructural: comprometer C requiere una única inyección exitosa durante operación normal; comprometer θ requiere acceso al entrenamiento o edición de pesos—capacidades no disponibles a través de consultas normales. Los checkpoints de pesos comprometidos son detectables mediante análisis de activaciones; las entradas de memoria envenenadas requieren auditoría semántica de un almacén que crece ilimitadamente.
The Complementary Learning Systems Argument
El Argumento de Sistemas de Aprendizaje Complementarios
The paper draws on Complementary Learning Systems (CLS) theory from neuroscience. Biological intelligence solved this problem by pairing fast hippocampal exemplar storage with slow neocortical weight consolidation during sleep. The hippocampus provides rapid episodic storage; the neocortex encodes slow, distributed, rule-based representations. Current AI agents implement only the hippocampal half; no consolidation path to the neocortical half exists in any deployed system.
El paper se basa en la teoría de Sistemas de Aprendizaje Complementarios (CLS) de la neurociencia. La inteligencia biológica resolvió este problema emparejando almacenamiento hipocampal rápido de ejemplares con consolidación neocortical lenta de pesos durante el sueño. El hipocampo proporciona almacenamiento episódico rápido; el neocórtex codifica representaciones lentas, distribuidas y basadas en reglas. Los agentes de IA actuales implementan solo la mitad hipocampal; no existe un camino de consolidación hacia la mitad neocortical en ningún sistema desplegado.
The Experience Compression Spectrum (Zhang et al., 2026) supports this: memory, skills, and rules lie on a compression spectrum—raw traces (low compression) → natural-language skills (medium) → parameterized rules (high). Current systems implement all three as context-based lookup, confusing points on the spectrum with each other. True rule-based cognition requires the high-compression endpoint (weight-based encoding), not storing skills as retrievable text.
El Espectro de Compresión de Experiencia (Zhang et al., 2026) respalda esto: memoria, skills y reglas yacen en un espectro de compresión—trazas crudas (baja compresión) → skills en lenguaje natural (media) → reglas parametrizadas (alta). Los sistemas actuales implementan los tres como lookup basado en contexto, confundiendo puntos del espectro entre sí. La cognición verdaderamente basada en reglas requiere el endpoint de alta compresión (codificación basada en pesos), no almacenar skills como texto recuperable.
The Call to Action: Build the Consolidation Channel
El Llamado a la Acción: Construir el Canal de Consolidación
The paper argues that agentic memory and parametric learning are complementary, not competing. The right architecture combines fast episodic lookup with a consolidation channel that periodically encodes distilled experience into weights—the AI analog of biological sleep. Three design principles:
El paper argumenta que la memoria agéntica y el aprendizaje paramétrico son complementarios, no competidores. La arquitectura correcta combina lookup episódico rápido con un canal de consolidación que codifica periódicamente experiencia destilada en pesos—el análogo en IA del sueño biológico. Tres principios de diseño:
The paper also calls on benchmark designers to measure learning, not recall: the critical missing metric is Compositional Generalization over Time (CGT)—does an agent’s ability to handle novel concept combinations improve with experience? A genuinely learning agent shows accuracy increasing with sessions; a pure-retrieval agent shows accuracy flat at baseline.
El paper también llama a los diseñadores de benchmarks a medir aprendizaje, no recall: la métrica crítica faltante es la Generalización Composicional en el Tiempo (CGT)—¿la habilidad de un agente para manejar combinaciones novedosas de conceptos mejora con la experiencia? Un agente genuinamente aprendiente muestra precisión incrementando con las sesiones; un agente de pura recuperación muestra precisión plana en la línea base.
Implications for Agent Architecture
Implicaciones para la Arquitectura de Agentes
For practitioners building agentic systems with DSPy, Dapr, and similar frameworks, the paper has concrete implications:
Para practitioners construyendo sistemas agénticos con DSPy, Dapr y frameworks similares, el paper tiene implicaciones concretas:
References
Referencias
- Xu, B., Dai, X. & Zhang, K. (2026). *Contextual Agentic Memory is a Memo, Not True Memory*. arxiv.org/abs/2604.27707
- McClelland, J.L. et al. (1995). *Why there are complementary learning systems in the hippocampus and neocortex*. Psychological Review.
- Yao, S. et al. (2026). *ParamMem: Augmenting Language Agents with Parametric Reflective Memory*.
- Chi, M.T.H. et al. (1981). *Categorization and representation of physics problems by experts and novices*. Cognitive Science.
- Zhang, Y. et al. (2026). *Experience Compression Spectrum: Unifying Memory, Skills, and Rules in LLM Agents*.
- Dong, X. et al. (2026). *MINJA: Memory Injection Attacks on LLM Agents via Query-Only Interaction*.
- Meng, K. et al. (2023). *MEMIT: Mass-Editing Memory in a Transformer*. arxiv.org/abs/2210.07229
- Ovadia, O. et al. (2024). *Fine-tuning or Retrieval? Comparing Knowledge Injection in LLMs*.
- Xu, B., Dai, X. & Zhang, K. (2026). *La Memoria Agéntica Contextual Es un Memorándum, No Memoria Verdadera*. arxiv.org/abs/2604.27707
- McClelland, J.L. et al. (1995). *Por qué hay sistemas de aprendizaje complementarios en el hipocampo y el neocórtex*. Psychological Review.
- Yao, S. et al. (2026). *ParamMem: Aumentando Agentes de Lenguaje con Memoria Reflexiva Paramétrica*.
- Chi, M.T.H. et al. (1981). *Categorización y representación de problemas de física por expertos y novatos*. Cognitive Science.
- Zhang, Y. et al. (2026). *Espectro de Compresión de Experiencia: Unificando Memoria, Skills y Reglas en Agentes LLM*.
- Dong, X. et al. (2026). *MINJA: Ataques de Inyección de Memoria en Agentes LLM vía Interacción Solo-Consulta*.
- Meng, K. et al. (2023). *MEMIT: Edición Masiva de Memoria en un Transformer*. arxiv.org/abs/2210.07229
- Ovadia, O. et al. (2024). *¿Fine-tuning o Retrieval? Comparando Inyección de Conocimiento en LLMs*.