Skill authoring is the bottleneck for agentic systems. We can prompt models to reason, but we can’t prompt them to accumulate reasoning into reusable knowledge. That’s the gap Trace2Skill (Ni et al., 2026) targets—and it cracks it with a clean insight: the best skills come from parallel analysis of broad experience, not sequential editing.
La authoring de habilidades es el cuello de botella para sistemas agénticos. Podemos razonar con prompts, pero no podemos hacer que acumulen razonamiento en conocimiento reutilizable. Esa es la brecha que Trace2Skill (Ni et al., 2026) ataca—y la abre con una idea limpia: las mejores habilidades vienen de análisis paralelo de experiencia amplia, no de edición secuencial.
The problem isn’t that we lack experience. Agents run on tasks all the time, producing trajectories—successes and failures, each labeled. The problem is how we extract skills from that experience. Existing approaches fall into two camps, both broken.
El problema no es que nos falte experiencia. Los agentes ejecutan tareas todo el tiempo, produciendo trayectorias—éxitos y fracasos, cada uno etiquetado. El problema es cómo extraemos habilidades de esa experiencia. Los enfoques existentes caen en dos camps, ambos rotos.
Sequential online evolution treats each trajectory as a learning opportunity in isolation. Run a task, extract a lesson, patch the skill. The problem: it overfits to trajectory-local lessons. Every failure becomes a patch, and patches compound into a fragmented skill that works for that trajectory but fails on generalization.
Evolución online secuencial trata cada trayectoria como una oportunidad de aprendizaje aislada. Ejecuta una tarea, extrae una lección, parchea la habilidad. El problema: se sobreajusta a lecciones locales de trayectorias. Cada fracaso se convierte en un parche, y los parches se acumulan en una habilidad fragmentada que funciona para esa trayectoria pero falla en generalización.
Retrieval-based approaches keep the experience external. A reasoning bank stores past trajectories, and the agent retrieves relevant examples at runtime. This avoids overfitting, but it adds retrieval overhead, treats experience as model-specific, and fundamentally changes the agent’s runtime profile—you’re now shipping a retrieval system alongside your skill.
Enfoques basados en recuperación mantienen la experiencia externa. Un banco de razonamiento almacena trayectorias pasadas, y el agente recupera ejemplos relevantes en runtime. Esto evita el sobreajuste, pero agrega overhead de recuperación, trata la experiencia como específica del modelo, y fundamentalmente cambia el perfil del agente en runtime—ahora estás enviando un sistema de recuperación junto con tu habilidad.
Trace2Skill takes neither path. Its three-stage approach mirrors how human experts actually write skills: analyze broad experience first, then distill into a single comprehensive guide. Not sequential, not fragmented.
Trace2Skill no toma ningún camino. Su enfoque de tres etapas refleja cómo los expertos realmente escriben habilidades: analiza experiencia amplia primero, luego distila en una guía integral. No secuencial, no fragmentado.
Stage 1: Trajectory Generation. The agent runs on a set of tasks, producing labeled trajectories. Successes and failures are both labeled—not just outcomes, but the full execution traces. This is the raw material.
Etapa 1: Generación de Trayectorias. El agente ejecuta un conjunto de tareas, produciendo trayectorias etiquetadas. Éxitos y fracasos ambos etiquetados—no solo resultados, sino las trazas de ejecución completas. Este es el material bruto.
Stage 2: Parallel Multi-Agent Patch Proposal. Here’s where it diverges from sequential evolution. A fleet of sub-agents analyzes the trajectories in parallel—not one agent processing lessons one by one. Error analysts use ReAct-style agentic loops with causal diagnosis. Success analysts identify generalizable patterns. Each sub-agent produces patches independently.
Etapa 2: Propuesta Paralela de Parches por Multi-Agente. Aquí es donde diverge de la evolución secuencial. Una flota de sub-agentes analiza las trayectorias en paralelo—no un agente procesando lecciones una por una. Los analistas de errores usan loops agénticos estilo ReAct con diagnóstico causal. Los analistas de éxito identifican patrones generalizables. Cada sub-agente produce parches independientemente.
Stage 3: Conflict-Free Consolidation. Patches are merged hierarchically via inductive reasoning. The key: programmatic conflict detection. If two patches contradict, they’re flagged and resolved before merging. The result is a single skill—not a pile of trajectory-specific patches.
Etapa 3: Consolidación Libre de Conflictos. Los parches se fusionan jerárquicamente via razonamiento inductivo. La clave: detección programática de conflictos. Si dos parches se contradicen, se marcan y resuelven antes de fusionar. El resultado es una habilidad única—no un pile de parches específicos de trayectorias.
The results shatter the assumption that skill transfer is impossible. Skills evolved by Qwen3.5-35B transferred to Qwen3.5-122B with a +57.65 percentage point improvement on WikiTableQuestions. Let me say that again: +57.65 pp. From a 35B model to a 122B model, without any parameter updates.
Los resultados destruyen la suposición de que la transferencia de habilidades es imposible. Habilidades evolucionadas por Qwen3.5-35B se transfirieron a Qwen3.5-122B con una mejora de +57.65 puntos porcentuales en WikiTableQuestions. Déjame decir eso de nuevo: +57.65 pp. De un modelo 35B a un modelo 122B, sin actualizaciones de parámetros.
It beats Anthropic’s official xlsx skills—human-written baselines. Spreadsheet skills transfer to Wikipedia table QA without modification, showing OOD generalization. Math reasoning gains +3.0 pp on DAPO-Math-Test-100 and +2.9 pp on AIME 2026. Vision QA (DocVQA) sees +16.39 ANLS and +15.3 pp accuracy.
Supera las habilidades xlsx oficiales de Anthropic—baselines escritas por humanos. Las habilidades de spreadsheet se transfieren a Wikipedia table QA sin modificación, mostrando generalización OOD. Razonamiento matemático gana +3.0 pp en DAPO-Math-Test-100 y +2.9 pp en AIME 2026. QA de visión (DocVQA) obtiene +16.39 ANLS y +15.3 pp de accuracy.
No parameter updates. No external retrieval. Open-source 35B models are sufficient. The +Combined analyst type is most consistent; +Error is most reliable; +Success is most volatile—a useful heuristic for priority when compute is tight.
Sin actualizaciones de parámetros. Sin recuperación externa. Modelos open-source de 35B son suficientes. El tipo de analista +Combined es más consistente; +Error es más confiable; +Success es más volátil—una heurística útil para prioridad cuando el compute es limitado.
The qualitative SoPs (Standard Operating Procedures) discovered are telling. The top patterns: formula recalculation and write-back verification (178/323 patches), tool selection favoring openpyxl over pandas.to_excel() (177/323), explicit read-back verification (138/323), and structural-edit safety (53/323). These aren’t learned from a single trajectory—they emerge from broad parallel analysis.
Los SoPs (Standard Operating Procedures) cualitativos descubiertos son reveladores. Los top patrones: recalculación de fórmulas y verificación de write-back (178/323 parches), selección de herramientas favoreciendo openpyxl sobre pandas.to_excel() (177/323), verificación explícita de read-back (138/323), y seguridad de edición estructural (53/323). Estas no se aprenden de una sola trayectoria—emergen del análisis paralelo amplio.
For DSPy and Dapr practitioners, Trace2Skill is a reminder: the skill itself is the artifact. Not the prompt, not the retrieval bank—the skill that consolidates experience into reusable reasoning. DSPy already gives you declarative optimization; Trace2Skill adds the consolidation layer that serial skills lack.
Para Practitioners de DSPy y Dapr, Trace2Skill es un recordatorio: la habilidad misma es el artefacto. No el prompt, no el banco de recuperación—la habilidad que consolida experiencia en razonamiento reutilizable. DSPy ya te da optimización declarable; Trace2Skill agrega la capa de consolidación que las habilidades seriales carecen.
The implication for agentic systems: when Voyager extracts skills from Minecraft and GEPA optimizes prompts, they’re all limited by how they treat experience—sequential in Voyager, online in GEPA. Trace2Skill shows that parallel consolidation extracts skills that transfer. That’s the missing piece.
La implicación para sistemas agénticos: cuando Voyager extrae habilidades de Minecraft y GEPA optimiza prompts, todos están limitados por cómo tratan la experiencia—secuencial en Voyager, online en GEPA. Trace2Skill muestra que consolidación paralela extrae habilidades que transfieren. Esa es la pieza faltante.
We’re building agents that accumulate. Trace2Skill is how you make that accumulation transferable.
Estamos construyendo agentes que acumulan. Trace2Skill es cómo haces esa acumulación transferible.
References
Referencias
- Ni, J., Liu, Y., Liu, Y., Sun, Y., Zhou, M., Cheng, P., Wang, D., Jiang, X., & Jiang, G. (2026). *Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills*. arXiv:2603.25158. arxiv.org/abs/2603.25158
- Related works: Voyager (open-ended skill building from Minecraft experience), LSE / Learning to Self-Evolve (RL for self-evolving policies), GEPA (gradient-free prompt optimization), TextGrad (differentiable prompts), Reflexion (verbal reinforcement for agents)
- Ni, J., Liu, Y., Liu, Y., Sun, Y., Zhou, M., Cheng, P., Wang, D., Jiang, X., & Jiang, G. (2026). *Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills*. arXiv:2603.25158. arxiv.org/abs/2603.25158
- Trabajos relacionados: Voyager (construcción de habilidades open-ended desde experiencia en Minecraft), LSE / Learning to Self-Evolve (RL para políticas auto-evolutivas), GEPA (optimización de prompts sin gradientes), TextGrad (prompts diferenciables), Reflexion (refuerzo verbal para agentes)