The central unsolved problem in agentic AI isn’t tool calling, memory, or orchestration—it’s perspective. An agent that sees the full state of the world will always answer differently from a user who only sees part of it. This mismatch, called perspective leakage, is the fundamental reason AI assistants fail at Theory-of-Mind (ToM) tasks: they answer from what they know, not from what the user believes.
El problema central no resuelto en la IA agéntica no es la llamada a herramientas, la memoria o la orquestación—es la perspectiva. Un agente que ve el estado completo del mundo siempre responderá diferente a un usuario que solo ve una parte. Este desajuste, llamado fuga de perspectiva, es la razón fundamental por la que los asistentes de IA fallan en tareas de Teoría de la Mente (ToM): responden desde lo que ellos saben, no desde lo que el usuario cree.
A new paper from the University of Illinois Urbana-Champaign—UserHarness: Harnessing User Minds for Stronger Agent Theory-of-Mind (arXiv:2605.27721) by Cheng Qian, Jiayu Liu, and Heng Ji—tackles this head-on. Rather than asking models to answer directly from narrative text, UserHarness reframes ToM as explicit user-mind reconstruction: before predicting what a user will believe or do, reconstruct the user’s epistemic position—what they observe, how those observations update their beliefs, how beliefs and intentions jointly produce actions, and how those actions change the environment.
Un nuevo paper de la University of Illinois Urbana-Champaign—UserHarness: Harnessing User Minds for Stronger Agent Theory-of-Mind (arXiv:2605.27721) de Cheng Qian, Jiayu Liu y Heng Ji—aborda esto de frente. En lugar de pedir a los modelos que respondan directamente del texto narrativo, UserHarness replantea ToM como reconstrucción explícita de la mente del usuario: antes de predecir lo que un usuario creerá o hará, reconstruye la posición epistémica del usuario—qué observan, cómo esas observaciones actualizan sus creencias, cómo las creencias e intenciones producen conjuntamente acciones, y cómo esas acciones cambian el entorno.
The results are striking: 95.94% macro accuracy across five ToM benchmarks, improving over existing inference methods by more than 15% relative. More importantly, UserHarness collapses the performance spread across model families from 26.75 points under direct prompting to just 3.65 points—with every evaluated backbone exceeding 92% accuracy. A Llama-3.1-8B with UserHarness (92.29%) nearly matches GPT-5.4 with direct prompting (78.42%). The scaffold, not the model size, drives performance.
Los resultados son sorprendentes: 95.94% de precisión macro en cinco benchmarks de ToM, mejorando los métodos de inferencia existentes en más del 15% relativo. Más importante aún, UserHarness colapsa la dispersión de rendimiento entre familias de modelos de 26.75 puntos bajo prompting directo a solo 3.65 puntos—con cada backbone evaluado superando el 92% de precisión. Un Llama-3.1-8B con UserHarness (92.29%) casi iguala a GPT-5.4 con prompting directo (78.42%). El scaffold, no el tamaño del modelo, impulsa el rendimiento.
The Framework: Perception → Belief → Intention → Action
El Framework: Percepción → Creencia → Intención → Acción
UserHarness formalizes user reasoning as a temporally evolving loop. At each time step t, the environment state Et contains locations, objects, and communication events. A user u does not observe Et directly—they receive only a partial observation Otu = Ω(Et, u), filtered by what is accessible to them. The user’s belief state Btu is updated through a rule-guided operator Γℛ that enforces perspective constraints: only observed changes update beliefs, accessible communication updates only its recipients. Crucially, this prevents privileged story information from leaking into the modeled user mind.
UserHarness formaliza el razonamiento del usuario como un bucle temporalmente evolutivo. En cada paso de tiempo t, el estado del entorno Et contiene ubicaciones, objetos y eventos de comunicación. Un usuario u no observa Et directamente—recibe solo una observación parcial Otu = Ω(Et, u), filtrada por lo que le es accesible. El estado de creencia del usuario Btu se actualiza mediante un operador guiado por reglas Γℛ que aplica restricciones de perspectiva: solo los cambios observados actualizan las creencias, la comunicación accesible actualiza solo a sus destinatarios. Esto evita que la información privilegiada de la historia se filtre en la mente modelada del usuario.
The belief state itself contains nested structures: btu for what u believes about the world, btu→v for what u believes v believes, and so on to arbitrary depth. Given the updated belief and the user’s goal Gu, UserHarness models the user’s action Atu = π(Gu, Btu), which then changes the environment to Et+1. The loop—Et → Otu → Btu → Atu → Et+1—repeats until the benchmark question is reached.
El estado de creencia en sí mismo contiene estructuras anidadas: btu para lo que u cree sobre el mundo, btu→v para lo que u cree que v cree, y así sucesivamente hasta profundidad arbitraria. Dada la creencia actualizada y el objetivo del usuario Gu, UserHarness modela la acción del usuario Atu = π(Gu, Btu), que luego cambia el entorno a Et+1. El bucle—Et → Otu → Btu → Atu → Et+1—se repite hasta que se alcanza la pregunta del benchmark.
For multiple-choice tasks, each option is treated as a candidate claim. UserHarness selects the answer by checking consistency with the reconstructed trace τu, rejecting options that require the user to know unobserved facts, hold unsupported beliefs, or act against their current belief and goal. This converts ToM answering from open-ended narrative reasoning into an option-level proof problem grounded in the user’s mental trajectory.
Para tareas de opción múltiple, cada opción se trata como una afirmación candidata. UserHarness selecciona la respuesta verificando la consistencia con la traza reconstruida τu, rechazando opciones que requieran que el usuario conozca hechos no observados, tenga creencias no respaldadas o actúe contra su creencia y objetivo actuales. Esto convierte la respuesta ToM de razonamiento narrativo abierto en un problema de prueba a nivel de opción fundamentado en la trayectoria mental del usuario.
Ablation Insight: Symbolic Scaffold vs. Model Participation
Perspectiva del Ablation: Scaffold Simbólico vs. Participación del Modelo
A critical ablation separates how much of the gain comes from the harness structure versus the model’s own capabilities. A pure-symbolic UserHarness—using only rule-based translation, parsing, and ToM proof generation without any model participation—reaches 75.63% macro accuracy. Adding constrained model participation (Qwen3-32B) pushes this to 95.26%. The gap is highly benchmark-dependent: on ToMi, the symbolic harness already achieves perfect accuracy, while on BigToM, model-driven translation and auditing remain essential, with a gap of 88.67 points between symbolic and model participation.
Un ablation crítico separa cuánta ganancia proviene de la estructura del harness versus las capacidades propias del modelo. Un UserHarness puramente simbólico—usando solo traducción basada en reglas, parsing y generación de pruebas ToM sin participación del modelo—alcanza 75.63% de precisión macro. Agregar participación restringida del modelo (Qwen3-32B) eleva esto a 95.26%. La brecha depende mucho del benchmark: en ToMi, el harness simbólico ya logra precisión perfecta, mientras que en BigToM, la traducción y auditoría impulsadas por el modelo siguen siendo esenciales, con una brecha de 88.67 puntos entre la participación simbólica y la del modelo.
The paper also shows that unconstrained model auditing degrades performance. When models are allowed to freely override UserHarness proofs, macro accuracy consistently drops across all backbones. Models react to local uncertainty even when the completed proof is correct, and they fail to detect genuinely incorrect proofs. This suggests that the harness must remain authoritative—model judgment should be constrained within the scaffold, not substituted for it.
El paper también muestra que la auditoría no restringida del modelo degrada el rendimiento. Cuando se permite a los modelos anular libremente las pruebas de UserHarness, la precisión macro cae consistentemente en todos los backbones. Los modelos reaccionan a la incertidumbre local incluso cuando la prueba completa es correcta, y no logran detectar pruebas genuinamente incorrectas. Esto sugiere que el harness debe mantenerse autoritativo—el juicio del modelo debe estar restringido dentro del scaffold, no sustituirlo.
Why This Matters for Agentic Systems
Por Qué Esto Importa para los Sistemas Agénticos
UserHarness addresses a blind spot in current agent evaluation. Most agent benchmarks focus on task completion, tool use, or policy compliance—they measure whether an agent does the right thing, not whether it understands the user’s mind. But the two are not the same. An agent can execute a command flawlessly while fundamentally misunderstanding why the user asked for it, or what the user believes about the task.
UserHarness aborda un punto ciego en la evaluación actual de agentes. La mayoría de los benchmarks de agentes se centran en la finalización de tareas, el uso de herramientas o el cumplimiento de políticas—miden si un agente hace lo correcto, no si entiende la mente del usuario. Pero las dos cosas no son lo mismo. Un agente puede ejecutar un comando impecablemente mientras fundamentalmente malinterpreta por qué el usuario lo pidió, o lo que el usuario cree sobre la tarea.
For blogs about DSPy, Dapr, and distributed agentic systems, the implication is clear: we’ve been optimizing the execution layer of agents (tool calling, RAG, workflow orchestration) while neglecting the epistemic layer—how agents model what users know and believe. UserHarness suggests that explicit belief reconstruction is not just an evaluation technique; it’s a architectural pattern. An agent that tracks the user’s belief state as a first-class data structure—separate from the true world state—can reason about false beliefs, information asymmetries, and communicative intent with the same rigor it applies to function calls and state transitions.
Para blogs sobre DSPy, Dapr y sistemas agénticos distribuidos, la implicación es clara: hemos estado optimizando la capa de ejecución de los agentes (llamadas a herramientas, RAG, orquestación de flujos de trabajo) mientras descuidamos la capa epistémica—cómo los agentes modelan lo que los usuarios saben y creen. UserHarness sugiere que la reconstrucción explícita de creencias no es solo una técnica de evaluación; es un patrón arquitectónico. Un agente que rastrea el estado de creencia del usuario como una estructura de datos de primera clase—separada del estado real del mundo—puede razonar sobre creencias falsas, asimetrías de información e intención comunicativa con el mismo rigor que aplica a las llamadas a funciones y transiciones de estado.
The paper also raises a provocative question about existing benchmarks. The pure-symbolic UserHarness reaching 75.63% macro accuracy suggests that some ToM benchmarks may be substantially solvable through deliberate symbolic scaffolding, potentially overestimating genuine model-level ToM competence. This mirrors broader concerns in the field about benchmark contamination and the gap between test performance and robust capability.
El paper también plantea una pregunta provocadora sobre los benchmarks existentes. Que el UserHarness puramente simbólico alcance 75.63% de precisión macro sugiere que algunos benchmarks ToM pueden ser sustancialmente resolubles mediante scaffolding simbólico deliberado, potencialmente sobreestimando la competencia ToM genuina a nivel de modelo. Esto refleja preocupaciones más amplias en el campo sobre la contaminación de benchmarks y la brecha entre el rendimiento en pruebas y la capacidad robusta.
Key Numbers
Números Clave
- 95.94% macro accuracy with Claude Opus—best result across five benchmarks
- +15% relative improvement over existing inference methods (AutoToM at 82.43%)
- +20% relative improvement over the strongest prompt-only harness
- 26.75 → 3.65 pts performance spread reduction across model backbones
- 92.29% with Llama-3.1-8B—nearly matching GPT-5.4 (95.64%) with UserHarness
- 100% on ToMi across every evaluated model
- 75.63% with pure-symbolic UserHarness (no model participation)
- 156–187 effective output tokens per example—within a narrow efficient envelope
- 95.94% de precisión macro con Claude Opus—mejor resultado en cinco benchmarks
- +15% de mejora relativa sobre métodos de inferencia existentes (AutoToM en 82.43%)
- +20% de mejora relativa sobre el mejor harness de solo prompting
- 26.75 → 3.65 pts de reducción en la dispersión de rendimiento entre backbones
- 92.29% con Llama-3.1-8B—casi igualando a GPT-5.4 (95.64%) con UserHarness
- 100% en ToMi en cada modelo evaluado
- 75.63% con UserHarness puramente simbólico (sin participación del modelo)
- 156–187 tokens de salida efectivos por ejemplo—dentro de un estrecho envelope eficiente
References
Referencias
- Qian, C., Liu, J., & Ji, H. (2026). UserHarness: Harnessing User Minds for Stronger Agent Theory-of-Mind. arXiv:2605.27721. arxiv.org/abs/2605.27721
- Zhang, C., et al. (2026). AutoToM: Scaling Model-Based Mental Inference via Automated Agent Modeling.
- Kim, H., et al. (2025). Hypothesis-Driven Theory-of-Mind Reasoning for Large Language Models.
- Wilf, A., et al. (2024). Think Twice: Perspective-Taking Improves Large Language Models' Theory-of-Mind Capabilities.
- Jung, C., et al. (2024). Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models.
- Sclar, M., et al. (2023). Minding Language Models' (Lack of) Theory of Mind: A Plug-and-Play Multi-Character Belief Tracker.
- Qian, C., Liu, J., & Ji, H. (2026). UserHarness: Aprovechando Mentes de Usuario para una Teoría de la Mente más Robusta en Agentes. arXiv:2605.27721. arxiv.org/abs/2605.27721
- Zhang, C., et al. (2026). AutoToM: Escalando Inferencia Mental Basada en Modelos mediante Modelado Automatizado de Agentes.
- Kim, H., et al. (2025). Razonamiento de Teoría de la Mente Impulsado por Hipótesis para Grandes Modelos de Lenguaje.
- Wilf, A., et al. (2024). Pensar Dos Veces: La Toma de Perspectiva Mejora las Capacidades de Teoría de la Mente de los Grandes Modelos de Lenguaje.
- Jung, C., et al. (2024). De Percepciones a Creencias: Explorando Inferencias Precursoras para la Teoría de la Mente en Grandes Modelos de Lenguaje.
- Sclar, M., et al. (2023). La (Falta de) Teoría de la Mente en Modelos de Lenguaje: Un Rastreador de Creencias Multi-Personaje Plug-and-Play.