NanoResearch: Co-Evolución de Habilidades, Memoria y Políticas para Automatización Personalizada de Investigación

The AI Scientist dream is here: systems that survey literature, generate hypotheses, implement experiments, and write papers end-to-end. But there’s a problem these systems all share — they produce the same output for every researcher. A computer vision lab with 8 H100s and a computational biologist working on a laptop get identical research plans. NanoResearch (Xu et al., 2026) argues this isn’t a bug to tolerate — it’s the central design flaw of current research automation, and they’ve built a system that fixes it.

El sueño del AI Scientist está aquí: sistemas que revisan literatura, generan hipótesis, implementan experimentos y escriben papers de principio a fin. Pero hay un problema que todos estos sistemas comparten — producen el mismo output para cada investigador. Un laboratorio de visión computacional con 8 H100s y un biólogo computacional trabajando en una laptop reciben planes de investigación idénticos. NanoResearch (Xu et al., 2026) argumenta que esto no es un bug que deba tolerarse — es el defecto de diseño central de la automatización de investigación actual, y han construido un sistema que lo corrige.

The Three Gaps

Las Tres Brechas

The paper identifies three specific capability gaps that prevent existing systems from personalizing:

El paper identifica tres brechas de capacidad específicas que impiden a los sistemas existentes personalizar:

1. No reusable procedural knowledge. Every run starts from scratch. The debugging patterns discovered on one project are forgotten on the next. Even memory-equipped systems like EvoScientist store episode-level narratives rather than distilled procedural primitives — they can tell you what happened but not what to do.

1. Sin conocimiento procedural reutilizable. Cada ejecución empieza desde cero. Los patrones de depuración descubiertos en un proyecto se olvidan en el siguiente. Incluso sistemas con memoria como EvoScientist almacenan narrativas a nivel de episodio en lugar de primitivas procedurales destiladas — pueden decirte qué pasó pero no qué hacer.

2. No cross-session user experience. Past hypotheses, validated configurations, and inferred resource constraints vanish when the session ends. The system rediscoveres them every time, grounding planning in generic priors rather than the user’s actual research history.

2. Sin experiencia de usuario entre sesiones. Hipótesis pasadas, configuraciones validadas y restricciones de recursos inferidas desaparecen cuando la sesión termina. El sistema las redescubre cada vez, basando la planificación en prioris genéricos en lugar del historial real de investigación del usuario.

3. No implicit preference internalization. Feedback like “prefer simpler methods” or “I need more efficiency analysis” is too nuanced to encode as rules and too fragile to survive compression into memory entries. Without a mechanism that converts such signals into persistent parameter changes, preferences fade as soon as the context window shifts.

3. Sin internalización de preferencias implícitas. Feedback como “prefiere métodos más simples” o “necesito más análisis de eficiencia” es demasiado matizado para codificarlo como reglas y demasiado frágil para sobrevivir a la compresión en entradas de memoria. Sin un mecanismo que convierta tales señales en cambios de parámetros persistentes, las preferencias se desvanecen en cuanto el contexto cambia.

Tri-Level Co-Evolution

Co-Evolución de Tres Niveles

NanoResearch’s architecture addresses these gaps through three interacting components, orchestrated by a central Orchestrator (𝒪):

La arquitectura de NanoResearch aborda estas brechas mediante tres componentes que interactúan, orquestados por un Orquestador central (𝒪):

Skill Bank (𝒮)

Banco de Habilidades (𝒮)

Distills recurring operations into compact procedural rules. When the Coding agent discovers a reliable debugging pattern, it gets abstracted into a skill — not a raw trajectory dump, but a generalizable rule. Retrieval prioritizes usage frequency and confidence, surfacing robust strategies over brittle ones. Skills are domain-specific: coding patterns, experimental setup recipes, writing conventions.

Destila operaciones recurrentes en reglas procedurales compactas. Cuando el agente de Coding descubre un patrón de depuración confiable, se abstrae en una habilidad — no un volcado de trayectoria crudo, sino una regla generalizable. La recuperación prioriza frecuencia de uso y confianza, mostrando estrategias robustas sobre frágiles. Las habilidades son específicas del dominio: patrones de código, recetas de configuración experimental, convenciones de escritura.

Memory Module (ℳ)

Módulo de Memoria (ℳ)

Maintains user-bound and project-bound records. Failed hypotheses, successful configurations, and resource constraints are stored with condition tags so retrieval returns only relevant experiences. This grounds every planning decision in the user’s actual history rather than generic priors. Memory retrieval enforces strict condition matching — it won’t return a GPU-cluster experience to a laptop user.

Mantiene registros vinculados al usuario y al proyecto. Hipótesis fallidas, configuraciones exitosas y restricciones de recursos se almacenan con etiquetas de condición para que la recuperación devuelva solo experiencias relevantes. Esto fundamenta cada decisión de planificación en el historial real del usuario en lugar de prioris genéricos. La recuperación de memoria exige coincidencia estricta de condiciones — no devolverá una experiencia de cluster GPU a un usuario de laptop.

Label-Free Policy Learning (SDPO)

Aprendizaje de Políticas Sin Etiquetas (SDPO)

This is the most novel component. When a user provides free-form natural language feedback (“the analysis should focus more on ablation studies”), NanoResearch doesn’t just log it — it converts it into persistent parameter updates of the planner model via Self-Distillation Policy Optimization (SDPO). The feedback-conditioned model acts as a self-teacher, and the planner is updated to match its token distribution. No reward model, no preference pairs — just the user’s natural feedback directly shaping the model’s parameters.

Este es el componente más novedoso. Cuando un usuario proporciona feedback en lenguaje natural (“el análisis debería enfocarse más en estudios de ablación”), NanoResearch no solo lo registra — lo convierte en actualizaciones persistentes de los parámetros del planificador mediante Self-Distillation Policy Optimization (SDPO). El modelo condicionado por feedback actúa como un auto-maestro, y el planificador se actualiza para coincidir con su distribución de tokens. Sin modelo de recompensa, sin pares de preferencia — solo el feedback natural del usuario moldeando directamente los parámetros del modelo.

The key mathematical insight: SDPO computes a dense token-level advantage signal from the log-probability ratio between the feedback-conditioned and unconditional models, then uses it as a policy gradient. This means every token position gets a learning signal — not just the final outcome.

La idea matemática clave: SDPO computa una señal de ventaja densa a nivel de token a partir de la razón de log-probabilidad entre el modelo condicionado por feedback y el incondicional, luego la usa como un gradiente de política. Esto significa que cada posición de token recibe una señal de aprendizaje — no solo el resultado final.

The Three-Stage Pipeline

El Pipeline de Tres Etapas

The Orchestrator coordinates a three-stage research pipeline, with the Skill Bank and Memory Module informing every decision:

El Orquestador coordina un pipeline de investigación de tres etapas, con el Banco de Habilidades y el Módulo de Memoria informando cada decisión:

Stage I — Idea Generation & Planning: Surveys literature via OpenAlex API, extracts quantitative evidence from papers (actual performance scores, not just text), identifies research gaps through a ReAct loop, and generates a JSON-formatted experiment blueprint. Novelty verification queries databases to filter out prior-work overlaps. An internal peer-review loop critiques the blueprint for infeasible designs before approval.

Etapa I — Generación de Ideas y Planificación: Revisa literatura via API de OpenAlex, extrae evidencia cuantitativa de papers (puntajes de rendimiento reales, no solo texto), identifica brechas de investigación mediante un loop ReAct, y genera un blueprint de experimento en formato JSON. La verificación de novedad consulta bases de datos para filtrar solapamientos con trabajos previos. Un loop interno de revisión por pares critica el blueprint por diseños inviables antes de la aprobación.

Stage II — Experimental Validation & Optimization: Clones repositories, stages datasets, generates code, and deploys to target environments (e.g., SLURM clusters). An autonomous debugging loop iteratively patches the codebase using retrieved skills and memories until execution succeeds. Results are parsed into analysis reports.

Etapa II — Validación Experimental y Optimización: Clona repositorios, prepara datasets, genera código y despliega en entornos objetivo (ej. clusters SLURM). Un loop autónomo de depuración parchea iterativamente el código usando habilidades y memorias recuperadas hasta que la ejecución tiene éxito. Los resultados se parsean en informes de análisis.

Stage III — Paper Writing & Review: Drafts the manuscript section-by-section using writing-specific skills and memories. A review agent critiques it on logical coherence, claim validity, and formatting. Revision loops continue until quality thresholds are met.

Etapa III — Escritura y Revisión del Paper: Redacta el manuscrito sección por sección usando habilidades y memorias específicas de escritura. Un agente revisor lo critica por coherencia lógica, validez de afirmaciones y formato. Los loops de revisión continúan hasta cumplir los umbrales de calidad.

The Results

Los Resultados

NanoResearch was evaluated across 20 research topics spanning 7 domains (NLP, CV, Multimodal, Tabular ML, Time Series, Graph ML, Audio), comparing against four state-of-the-art systems: AI-Researcher, DeepScientist, EvoScientist, and AI Scientist-v2.

NanoResearch fue evaluado en 20 temas de investigación en 7 dominios (NLP, CV, Multimodal, Tabular ML, Time Series, Graph ML, Audio), comparándose contra cuatro sistemas del estado del arte: AI-Researcher, DeepScientist, EvoScientist y AI Scientist-v2.

The evaluation measures five dimensions: compliance with user requirements, end-to-end executability, task accuracy of the produced method, innovation/novelty, and writing quality. NanoResearch achieves consistent gains across all dimensions. More importantly, its performance improves progressively over successive research cycles — the system grows more effective the longer it collaborates with a given researcher.

La evaluación mide cinco dimensiones: cumplimiento de requisitos del usuario, ejecutabilidad de extremo a extremo, precisión de la tarea del método producido, innovación/novelidad y calidad de escritura. NanoResearch logra ganancias consistentes en todas las dimensiones. Más importante aún, su rendimiento mejora progresivamente en ciclos de investigación sucesivos — el sistema se vuelve más efectivo cuanto más tiempo colabora con un investigador determinado.

The case studies are particularly revealing. Given the same research topic, three different researcher profiles produce substantially different outputs: an Evidence-First Scientist runs comprehensive empirical validation before theorizing; an Ablation-Focused Researcher prioritizes systematic component analysis; and a Benchmark-Driven Exploratory Researcher casts a wider net across multiple datasets. The system genuinely adapts — it doesn’t just relabel the same output.

Los estudios de caso son particularmente reveladores. Dado el mismo tema de investigación, tres perfiles de investigadores diferentes producen outputs sustancialmente distintos: un Científico Primero-La-Evidencia ejecuta validación empírica exhaustiva antes de teorizar; un Investigador Centrado en Ablación prioriza el análisis sistemático de componentes; y un Investigador Exploratorio Impulsado por Benchmarks tiende una red más amplia a través de múltiples datasets. El sistema realmente se adapta — no solo reetiqueta el mismo output.

The skill bank and memory module show clear growth across rounds. Skills accumulate and merge, memory entries compound, and the planner’s policy progressively aligns with user preferences. This isn’t a static system — it’s a co-evolving research assistant that gets better the more you use it.

El banco de habilidades y el módulo de memoria muestran un crecimiento claro a través de las rondas. Las habilidades se acumulan y fusionan, las entradas de memoria se acumulan, y la política del planificador se alinea progresivamente con las preferencias del usuario. Esto no es un sistema estático — es un asistente de investigación co-evolutivo que mejora cuanto más lo usas.

Why This Matters

Por Qué Esto Importa

NanoResearch makes a deceptively simple argument that turns out to be profound: personalization is not a feature — it’s a precondition for research automation to be genuinely usable. A system that ignores the user’s resource constraints, methodological preferences, and research history will systematically under-serve everyone.

NanoResearch presenta un argumento engañosamente simple que resulta ser profundo: la personalización no es una característica — es un pre-requisito para que la automatización de la investigación sea genuinamente usable. Un sistema que ignora las restricciones de recursos, preferencias metodológicas e historial de investigación del usuario servirá sistemáticamente mal a todos.

For those building agentic systems with DSPy, Dapr Agents, or skill-centric frameworks, the tri-level co-evolution pattern is directly applicable: a skill bank for reusable procedural knowledge, a memory module for user-specific context, and a policy learning mechanism for implicit preference internalization. Most current systems handle at most one of these. NanoResearch shows they need all three, and that they must co-evolve.

Para aquellos construyendo sistemas agénticos con DSPy, Dapr Agents, o frameworks centrados en habilidades, el patrón de co-evolución de tres niveles es directamente aplicable: un banco de habilidades para conocimiento procedural reutilizable, un módulo de memoria para contexto específico del usuario, y un mecanismo de aprendizaje de políticas para internalización implícita de preferencias. La mayoría de los sistemas actuales manejan como máximo uno de estos. NanoResearch muestra que se necesitan los tres, y que deben co-evolucionar.

The gap between the first generation of AI research systems and NanoResearch is the gap between automation and personalization. We now have systems that can do research. NanoResearch is the first that can do your research.

La brecha entre la primera generación de sistemas de investigación con IA y NanoResearch es la brecha entre automatización y personalización. Ahora tenemos sistemas que pueden hacer investigación. NanoResearch es el primero que puede hacer tu investigación.

References

Referencias

Xu, J., Zhu, Q., Wu, Y., Wang, Z., Zhang, D., Tang, J., Tian, M., Duan, Y., Li, S., Wei, J., Han, S., Guo, Y., Zhang, O., He, C., & Tan, C. (2026). NanoResearch: Co-Evolving Skills, Memory, and Policy for Personalized Research Automation. arXiv:2605.10813. arxiv.org/abs/2605.10813
Code: github.com/OpenRaiser/NanoResearch
Dataset (20 topics, 7 domains): huggingface.co/datasets/xjh111/nanoresearch-20topics
Related works: The AI Scientist (Lu et al., 2024), AI Scientist-v2 (Yamada et al., 2025), EvoScientist (Lyu et al., 2026), DeepScientist (Weng et al., 2025), AI-Researcher (Tang et al., 2025), SDPO (Büning et al., 2026)

Xu, J., Zhu, Q., Wu, Y., Wang, Z., Zhang, D., Tang, J., Tian, M., Duan, Y., Li, S., Wei, J., Han, S., Guo, Y., Zhang, O., He, C., & Tan, C. (2026). NanoResearch: Co-Evolving Skills, Memory, and Policy for Personalized Research Automation. arXiv:2605.10813. arxiv.org/abs/2605.10813
Código: github.com/OpenRaiser/NanoResearch
Dataset (20 temas, 7 dominios): huggingface.co/datasets/xjh111/nanoresearch-20topics
Trabajos relacionados: The AI Scientist (Lu et al., 2024), AI Scientist-v2 (Yamada et al., 2025), EvoScientist (Lyu et al., 2026), DeepScientist (Weng et al., 2025), AI-Researcher (Tang et al., 2025), SDPO (Büning et al., 2026)