Back to blog
A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications

A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications

The agent ecosystem has a scaling problem. Not with models—those keep getting larger. Not with tools—MCP and function calling solved interoperability. The bottleneck is procedural knowledge: the gap between having access to tools and knowing when to invoke them, how to sequence them, what to do when they fail, and how to validate their outputs. A comprehensive new survey from Zhou et al. (2026) maps this entire landscape—and the picture it paints is both sobering and exhilarating.

El ecosistema de agentes tiene un problema de escala. No con los modelos—siguen creciendo. No con las herramientas—MCP y function calling resolvieron la interoperabilidad. El cuello de botella es el conocimiento procedural: la brecha entre tener acceso a herramientas y saber cuándo invocarlas, cómo secuenciarlas, qué hacer cuando fallan, y cómo validar sus salidas. Un nuevo estudio integral de Zhou et al. (2026) mapea todo este panorama—y la imagen que pinta es a la vez sobria y emocionante.

The Procedural Gap

La Brecha Procedural

The core premise of the survey is that the field has reached an inflection point. Tool-augmented agents—those using search engines, code interpreters, databases, and APIs—are now standard. Standards like MCP have made tool discovery and invocation trivial. But as the authors put it: “MCP and similar infrastructures solve an interoperability problem, not the procedural problem of turning multiple tool calls into a robust workflow.”

La premisa central del estudio es que el campo ha llegado a un punto de inflexión. Los agentes aumentados con herramientas—que usan buscadores, intérpretes de código, bases de datos y APIs—son ahora estándar. Estándares como MCP han hecho que el descubrimiento e invocación de herramientas sea trivial. Pero como los autores lo plantean: “MCP y las infraestructuras similares resuelven un problema de interoperabilidad, no el problema procedural de convertir múltiples llamadas a herramientas en un flujo de trabajo robusto.”

This “procedural gap” is the central bottleneck for modern agent systems. Every time an agent faces a task, it must reason from scratch about which tools to call, in what order, with what parameters, and how to handle failures. This is brittle, slow, and error-prone—especially as tasks become long-horizon and heterogeneous.

Esta “brecha procedural” es el cuello de botella central de los sistemas de agentes modernos. Cada vez que un agente enfrenta una tarea, debe razonar desde cero sobre qué herramientas llamar, en qué orden, con qué parámetros y cómo manejar fallos. Esto es frágil, lento y propenso a errores—especialmente cuando las tareas se vuelven de largo plazo y heterogéneas.

What Is an Agent Skill?

¿Qué es una Habilidad de Agente?

The survey’s answer is precise. An agent skill is a reusable procedural artifact that packages not just what can be done, but when to act, how to execute, what failure modes matter, and how to judge completion. Formally:

La respuesta del estudio es precisa. Una habilidad de agente es un artefacto procedural reutilizable que empaqueta no solo qué se puede hacer, sino cuándo actuar, cómo ejecutar, qué modos de fallo importan y cómo juzgar la finalización. Formalmente:

S = (M, ℛ, 𝒞) — a skill is a tuple of a root instruction document M, auxiliary resources ℛ (references, templates, scripts, code), and applicability conditions 𝒞 (metadata, descriptions, embeddings that govern retrieval).

S = (M, ℛ, 𝒞) — una habilidad es una tupla de un documento de instrucción raíz M, recursos auxiliares ℛ (referencias, plantillas, scripts, código), y condiciones de aplicabilidad 𝒞 (metadatos, descripciones, embeddings que gobiernan la recuperación).

This isn’t just a theoretical exercise. The survey catalogs real platforms operating at scale: SkillNet (300k+ skills), ClawHub (40k+), SkillHub (80k+), SkillsMP (700k+), and Skills.sh (90k+). The ecosystem is already here—what’s missing is the science of how to manage it.

Esto no es solo un ejercicio teórico. El estudio cataloga plataformas reales operando a escala: SkillNet (más de 300k skills), ClawHub (más de 40k), SkillHub (más de 80k), SkillsMP (más de 700k), y Skills.sh (más de 90k). El ecosistema ya está aquí—lo que falta es la ciencia de cómo gestionarlo.

The Four Lifecycle Stages

Las Cuatro Etapas del Ciclo de Vida

The survey’s main analytical contribution is a four-stage lifecycle model that organizes the fragmented literature into a coherent framework.

La principal contribución analítica del estudio es un modelo de ciclo de vida de cuatro etapas que organiza la literatura fragmentada en un marco coherente.

1. Skill Representation

1. Representación de Habilidades

How are skills packaged? The survey identifies three configurations based on auxiliary resources ℛ:

¿Cómo se empaquetan las habilidades? El estudio identifica tres configuraciones basadas en recursos auxiliares ℛ:

- Text-backed skills (ℛ = textual artifacts): references, examples, templates, rubrics. Best for interpretability and knowledge work. Examples: Reflexion’s verbal lessons, ExpeL’s experience summaries, Buffer of Thoughts’ thought templates.

- Habilidades basadas en texto (ℛ = artefactos textuales): referencias, ejemplos, plantillas, rúbricas. Mejores para interpretabilidad y trabajo de conocimiento. Ejemplos: lecciones verbales de Reflexion, resúmenes de experiencia de ExpeL, plantillas de pensamiento de Buffer of Thoughts.

- Code-backed skills (ℛ = executable artifacts): scripts, helper functions, notebooks. Strong operational determinism but adds versioning, testing, and dependency costs. Examples: Voyager’s executable skill library, SkillCraft’s tool-use traces.

- Habilidades basadas en código (ℛ = artefactos ejecutables): scripts, funciones auxiliares, notebooks. Fuerte determinismo operacional pero añade costos de versionado, pruebas y dependencias. Ejemplos: librería de habilidades ejecutables de Voyager, trazas de uso de herramientas de SkillCraft.

- Hybrid-resource skills (ℛ = text + code): the most powerful but most complex. MCP servers with documentation, AgentSkillOS workflows. Consistency across documents and code becomes an active maintenance burden.

- Habilidades de recursos híbridos (ℛ = texto + código): las más poderosas pero más complejas. Servidores MCP con documentación, flujos de trabajo de AgentSkillOS. La consistencia entre documentos y código se convierte en una carga de mantenimiento activa.

2. Skill Acquisition

2. Adquisición de Habilidades

How are skills created? The survey organizes acquisition into four families based on the source:

¿Cómo se crean las habilidades? El estudio organiza la adquisición en cuatro familias basadas en la fuente:

- Human-derived: domain experts write skills directly. High precision, low scalability. The seed layer for automated systems. Doctors codifying diagnostic procedures, engineers writing operational playbooks, policy experts formalizing safety constraints. The trend is clear: SkillsMP grew from ~100k skills in early 2025 to 700k+ by April 2026.

- Derivada de humanos: expertos del dominio escriben habilidades directamente. Alta precisión, baja escalabilidad. La capa semilla para sistemas automatizados. Doctores codificando procedimientos de diagnóstico, ingenieros escribiendo manuales operativos, expertos en políticas formalizando restricciones de seguridad. La tendencia es clara: SkillsMP creció de ~100k skills a principios de 2025 a más de 700k en abril de 2026.

- Experience-derived: built from trajectories, executions, and past outcomes. Voyager’s successful Minecraft traces, Reflexion’s failure-to-lesson conversion, Trace2Skill’s parallel multi-agent patch proposal. This is where most research energy currently concentrates.

- Derivada de experiencia: construida a partir de trayectorias, ejecuciones y resultados pasados. Trazas exitosas de Minecraft de Voyager, conversión de fracaso a lección de Reflexion, propuesta paralela de parches multi-agente de Trace2Skill. Aquí es donde se concentra la mayor parte de la energía investigativa actual.

- Task-derived: constructed on demand from current task requirements. CREATOR generates tools for compositional reasoning, LLM as ToolMakers produces reusable tool factories, CodeAct synthesizes executable actions from task context.

- Derivada de tareas: construida bajo demanda a partir de requisitos de la tarea actual. CREATOR genera herramientas para razonamiento composicional, LLM as ToolMakers produce fábricas de herramientas reutilizables, CodeAct sintetiza acciones ejecutables desde el contexto de la tarea.

- Corpus-derived: extracted from external corpora. AppAgent learns GUI skills from app interface exploration, AutoGuide extracts workflows from documentation, HuggingGPT discovers capabilities from model repositories.

- Derivada de corpus: extraída de corpus externos. AppAgent aprende habilidades de GUI desde la exploración de interfaces de apps, AutoGuide extrae flujos de trabajo de documentación, HuggingGPT descubre capacidades desde repositorios de modelos.

3. Skill Retrieval

3. Recuperación de Habilidades

With libraries at 700k+ skills, retrieval is no longer optional—it’s the central system design challenge. The survey covers four retrieval paradigms:

Con bibliotecas de más de 700k skills, la recuperación ya no es opcional—es el desafío central de diseño del sistema. El estudio cubre cuatro paradigmas de recuperación:

- Dense embedding retrieval: encode skills and queries into vector spaces. Standard for large libraries but struggles with nuanced applicability conditions.

- Recuperación por embeddings densos: codifica habilidades y consultas en espacios vectoriales. Estándar para bibliotecas grandes pero lucha con condiciones de aplicabilidad matizadas.

- Sparse/keyword retrieval: BM25-style matching. Simple, interpretable, degrades on semantic mismatch.

- Recuperación dispersa/keyword: matching estilo BM25. Simple, interpretable, degrada en desajuste semántico.

- Generative retrieval: the model generates skill identifiers directly, bypassing explicit search. ToolGen exemplifies this—unified tool retrieval and calling via generation.

- Recuperación generativa: el modelo genera identificadores de habilidades directamente, evitando la búsqueda explícita. ToolGen ejemplifica esto—recuperación y llamada unificada de herramientas via generación.

- Structure-aware retrieval: leverages skill library hierarchies and relationships. GraphSkill uses skill dependency graphs for retrieval. Scales better with library size.

- Recuperación consciente de estructura: aprovecha jerarquías y relaciones de la biblioteca de habilidades. GraphSkill usa grafos de dependencia de habilidades para recuperación. Escala mejor con el tamaño de la biblioteca.

The survey also covers selection and routing—not just finding the right skill, but deciding whether to use it given context, cost, and state. MemSkill uses memory-augmented selection. SkillRouter learns routing policies. The key insight: retrieval and selection are tightly coupled, and errors in one cascade to the other.

El estudio también cubre selección y enrutamiento—no solo encontrar la habilidad correcta, sino decidir si usarla dado el contexto, costo y estado. MemSkill usa selección aumentada con memoria. SkillRouter aprende políticas de enrutamiento. La idea clave: la recuperación y la selección están estrechamente acopladas, y los errores en una cascadan a la otra.

4. Skill Evolution

4. Evolución de Habilidades

Skills are not static artifacts. The survey identifies five evolution mechanisms:

Las habilidades no son artefactos estáticos. El estudio identifica cinco mecanismos de evolución:

- Skill Revision: updating skills from feedback and execution outcomes. AutoRefine iteratively improves skills. ARISE uses self-play for skill refinement.

- Revisión de Habilidades: actualización de habilidades a partir de feedback y resultados de ejecución. AutoRefine mejora iterativamente las habilidades. ARISE usa auto-juego para refinar habilidades.

- Skill Validation: ensuring quality before admission. This is the load-bearing component—without validation, libraries degrade into noise. Most platforms still lack robust validation.

- Validación de Habilidades: asegurar calidad antes de la admisión. Este es el componente crítico—sin validación, las bibliotecas degeneran en ruido. La mayoría de las plataformas aún carecen de validación robusta.

- Policy Coupling: the skill library and the agent’s selection policy co-evolve. Better skills enable better policies; better policies demand better skills.

- Acoplamiento de Políticas: la biblioteca de habilidades y la política de selección del agente co-evolucionan. Mejores habilidades permiten mejores políticas; mejores políticas demandan mejores habilidades.

- Repository Evolution: library-wide operations—merge, split, prune, rerank. The survey draws parallels to database maintenance: skills need garbage collection, deduplication, index rebuilding.

- Evolución de Repositorio: operaciones a nivel de biblioteca—fusionar, dividir, podar, reordenar. El estudio traza paralelismos con el mantenimiento de bases de datos: las habilidades necesitan recolección de basura, deduplicación, reconstrucción de índices.

- Runtime Governance: who can create, modify, deploy, and execute skills? Security analysis reveals that 26.1% of community-contributed skills contain vulnerabilities. PoisonedSkills demonstrates supply-chain attacks on skill marketplaces. Trust tiers, sandboxing, and provenance tracking are emerging as requirements.

- Gobernanza en Tiempo de Ejecución: quién puede crear, modificar, desplegar y ejecutar habilidades? El análisis de seguridad revela que el 26.1% de las habilidades contribuidas por la comunidad contienen vulnerabilidades. PoisonedSkills demuestra ataques a la cadena de suministro en mercados de habilidades. Los niveles de confianza, sandboxing y seguimiento de procedencia están emergiendo como requisitos.

The Ecosystem Reality

La Realidad del Ecosistema

What makes this survey essential reading is the ecosystem data. SkillsMP has 700,000+ skills as of April 2026, growing from 100k in early 2025. ClawHub hosts 40k+. SkillHub has 80k+. These aren’t toy datasets—they’re production ecosystems with real adoption.

Lo que hace que este estudio sea lectura esencial son los datos del ecosistema. SkillsMP tiene más de 700,000 habilidades en abril de 2026, creciendo desde 100k a principios de 2025. ClawHub alberga más de 40k. SkillHub tiene más de 80k. Estos no son datasets de juguete—son ecosistemas de producción con adopción real.

The application scenarios are equally broad. Code agents (CodeAct, SWE-agent) use skills for debugging and testing. Web/GUI agents (Synapse, SkillWeaver) encode multi-step interaction sequences. Chatbots (MemGPT, HyperMem) use skills for tool routing and context management. Robotics (Voyager, Uni-Skill) uses skill libraries as composable motor behavior repositories. Healthcare and finance use skills for compliance-constrained decision procedures.

Los escenarios de aplicación son igualmente amplios. Agentes de código (CodeAct, SWE-agent) usan habilidades para depuración y pruebas. Agentes Web/GUI (Synapse, SkillWeaver) codifican secuencias de interacción multi-paso. Chatbots (MemGPT, HyperMem) usan habilidades para enrutamiento de herramientas y gestión de contexto. Robótica (Voyager, Uni-Skill) usa bibliotecas de habilidades como repositorios de comportamiento motor composable. Salud y finanzas usan habilidades para procedimientos de decisión con cumplimiento normativo.

What This Means for Practitioners

Qué Significa Esto para los Practicantes

For those building agentic systems with DSPy, Dapr Agents, or any framework that separates orchestration from execution, this survey validates a direction many have intuited: the skill layer is where the durable value accumulates. DSPy’s declarative optimization pipeline is already a skill acquisition framework by another name. The Dapr Agents runtime is already a skill execution environment.

Para aquellos construyendo sistemas agénticos con DSPy, Dapr Agents, o cualquier framework que separe orquestación de ejecución, este estudio valida una dirección que muchos han intuido: la capa de habilidades es donde el valor durable se acumula. El pipeline de optimización declarativa de DSPy ya es un framework de adquisición de habilidades con otro nombre. El runtime de Dapr Agents ya es un entorno de ejecución de habilidades.

The open challenges the survey identifies are where the next generation of tooling will emerge:

Los desafíos abiertos que el estudio identifica son donde emergerá la próxima generación de herramientas:

1. Quality control at scale: how do you validate 700k+ skills without manual review? Current approaches are ad-hoc.

1. Control de calidad a escala: ¿cómo validas más de 700k habilidades sin revisión manual? Los enfoques actuales son ad-hoc.

2. Interoperability: skills from ClawHub don’t work on SkillsMP. Cross-platform portability is unsolved.

2. Interoperabilidad: las habilidades de ClawHub no funcionan en SkillsMP. La portabilidad entre plataformas no está resuelta.

3. Safe updating: how do you revise a skill without breaking downstream agents that depend on it? Versioning, rollback, dependency tracking—all open.

3. Actualización segura: ¿cómo revisas una habilidad sin romper agentes downstream que dependen de ella? Versionado, rollback, seguimiento de dependencias—todo abierto.

4. Long-term governance: skill marketplaces face the same challenges as app stores—trust, supply-chain security, attrition. The 26.1% vulnerability rate is a warning.

4. Gobernanza a largo plazo: los mercados de habilidades enfrentan los mismos desafíos que las tiendas de apps—confianza, seguridad de cadena de suministro, desgaste. La tasa de vulnerabilidad del 26.1% es una advertencia.

The survey doesn’t solve these problems. What it does is provide the vocabulary, the taxonomy, and the map. For anyone designing agent skill systems—whether you’re building a skill library for your organization or contributing to an open ecosystem—this is the reference document you’ve been waiting for.

El estudio no resuelve estos problemas. Lo que hace es proporcionar el vocabulario, la taxonomía y el mapa. Para cualquiera que diseñe sistemas de habilidades de agentes—ya sea que estés construyendo una biblioteca de habilidades para tu organización o contribuyendo a un ecosistema abierto—este es el documento de referencia que has estado esperando.

We’re moving from tool-calling agents to skill-centric ecosystems. The infrastructure is being built now. This survey is the blueprint.

Estamos pasando de agentes que llaman herramientas a ecosistemas centrados en habilidades. La infraestructura se está construyendo ahora. Este estudio es el plano.


References

Referencias

  • Zhou, Y., Wang, S., Su, Y., Du, W., Fang, Y., & Lin, X. (2026). A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications. arXiv:2605.07358. arxiv.org/abs/2605.07358
  • Awesome-Agent-Skills (curated paper list): github.com/JayLZhou/Awesome-Agent-Skills
  • Agent skill platforms: SkillNet (300k+), ClawHub (40k+), SkillHub (80k+), SkillsMP (700k+), Skills.sh (90k+)
  • Related surveys: SoK: Agentic Skills — Beyond Tool Use in LLM Agents (arXiv:2602.20867), They Are Not Static: A Survey of Dynamic Agent Skills (OpenReview 2026)
  • Related works: Voyager (open-ended skill building from experience), Reflexion (verbal reinforcement), Trace2Skill (parallel skill consolidation), CREATOR (tool creation for reasoning), ToolGen (generative skill retrieval)
  • Zhou, Y., Wang, S., Su, Y., Du, W., Fang, Y., & Lin, X. (2026). A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications. arXiv:2605.07358. arxiv.org/abs/2605.07358
  • Awesome-Agent-Skills (lista de papers curada): github.com/JayLZhou/Awesome-Agent-Skills
  • Plataformas de habilidades: SkillNet (300k+), ClawHub (40k+), SkillHub (80k+), SkillsMP (700k+), Skills.sh (90k+)
  • Estudios relacionados: SoK: Agentic Skills — Beyond Tool Use in LLM Agents (arXiv:2602.20867), They Are Not Static: A Survey of Dynamic Agent Skills (OpenReview 2026)
  • Trabajos relacionados: Voyager (construcción de habilidades desde experiencia), Reflexion (refuerzo verbal), Trace2Skill (consolidación paralela de habilidades), CREATOR (creación de herramientas para razonamiento), ToolGen (recuperación generativa de habilidades)
Share