Volver al blog
Learning to Self-Evolve: Entrenando LLMs para Mejorar Sus Propios Contextos

Learning to Self-Evolve: Entrenando LLMs para Mejorar Sus Propios Contextos

The assumption that self-improvement is an emergent behavior—that sufficiently large models will “just figure it out”—has held the field back. Learning to Self-Evolve (Chen et al., 2026) shatters that assumption with a striking result: a 4B-parameter model trained with LSE outperforms self-evolving policies powered by GPT-5 and Claude Sonnet 4.5. Self-evolution is not a byproduct of scale—it’s a trainable skill.

La suposición de que el auto-mejoramiento es un comportamiento emergente—que los modelos suficientemente grandes simplemente “lo descubrirán”—ha contenido al campo. Learning to Self-Evolve (Chen et al., 2026) destruye esa suposición con un resultado contundente: un modelo de 4B parámetros entrenado con LSE supera políticas de autoevolución impulsadas por GPT-5 y Claude Sonnet 4.5. La autoevolución no es un subproducto de la escala—es una habilidad entrenable.

The problem with existing approaches like GEPA, TextGrad, and Reflexion is that they treat self-improvement as an inference-time behavior that depends on the model’s inherent capabilities. Prompt optimization methods search for better prompts, but never train the model to search better. The model is treated as a fixed resource—something to prompt, not something to improve.

El problema con enfoques existentes como GEPA, TextGrad y Reflexion es que tratan el auto-mejoramiento como un comportamiento en tiempo de inferencia que depende de las capacidades inherentes del modelo. Los métodos de optimización de prompts buscan mejores prompts, pero nunca entrenan al modelo para buscar mejor. El modelo es tratado como un recurso fijo—algo a promptar, no algo a mejorar.

LSE reframes self-evolution as a reinforcement learning problem. Instead of optimizing prompts directly, it trains a policy that produces context edits—modifications to the prompt, examples, or state that improve downstream performance. The key insight: each edit is rewarded not by raw post-edit performance, but by the improvement it produces.

LSE reformula la autoevolución como un problema de RL. En lugar de optimizar prompts directamente, entrena una política que produce ediciones de contexto—modificaciones al prompt, ejemplos o estado que mejoran el rendimiento posterior. La idea clave: cada edición es recompensada no por el rendimiento post-edición, sino por la mejora que produce.

The reward is elegant: r_LSE = R̄(c₁) − R̄(c₀), where c₁ is the context after editing and c₀ is the context before. This improvement-based reward isolates the value of the edit itself, preventing the model from getting credit for improvements it didn’t cause. Paired with a tree-guided exploration loop using UCB selection, the model explores edits, evaluates their impact, and backtracks when paths go cold.

La recompensa es elegante: r_LSE = R̄(c₁) − R̄(c₀), donde c₁ es el contexto después de editar y c₀ es el contexto antes. Esta recompensa basada en mejora aísla el valor de la edición misma, evitando que el modelo se crea crédito por mejoras que no causó. Emparejada con un loop de exploración guiado por árbol usando selección UCB, el modelo explora ediciones, evalúa su impacto y backtrackea cuando los caminos se enfrían.

The results are stark. A 4B-parameter model trained with LSE outperforms both GPT-5 and Claude Sonnet 4.5 as a self-evolving policy. On BIRD (Text-to-SQL), LSE achieves 67.3% vs GPT-5’s 65.2% and Claude Sonnet 4.5’s 64.5%. On MMLU-Redux (QA), LSE hits 73.3%—matching GPT-5’s 72.5% and beating Claude Sonnet 4.5’s 72.0%.

Los resultados son devastadores. Un modelo de 4B parámetros entrenado con LSE supera tanto a GPT-5 como a Claude Sonnet 4.5 como política de autoevolución. En BIRD (Text-to-SQL), LSE alcanza 67.3% vs 65.2% de GPT-5 y 64.5% de Claude Sonnet 4.5. En MMLU-Redux (QA), LSE llega a 73.3%—igualando el 72.5% de GPT-5 y superando el 72.0% de Claude Sonnet 4.5.

But the most compelling result is transfer. The LSE-trained policy was applied to guide Arctic-Text2SQL-R1-7B—a completely different model—with zero additional training. The result: a 6.7% improvement. This isn’t a model learning to improve itself in isolation. It’s a skill that transfers, like a compiler that works across architectures.

Pero el resultado más convincente es la transferencia. La política entrenada con LSE fue aplicada para guiar Arctic-Text2SQL-R1-7B—un modelo completamente diferente—sin entrenamiento adicional. El resultado: una mejora del 6.7%. Esto no es un modelo aprendiendo a mejorarse en aislamiento. Es una habilidad que transfiere, como un compilador que funciona entre arquitecturas.

For agentic systems built on DSPy and Dapr, this changes the playbook. DSPy already gives you declarative optimization—define signatures, attach metrics, let the optimizer search. LSE adds a self-evolution layer: train the optimizer itself to improve the prompts it generates. The runtime failures that Voyager and Reflexion treat as terminal errors become training signals. The agent compiles itself.

Para sistemas agénticos construidos sobre DSPy y Dapr, esto cambia el juego. DSPy ya te da optimización declarable—define signatures, adjunta métricas, deja que el optimizador busque. LSE agrega una capa de autoevolución: entrena al optimizador mismo para mejorar los prompts que genera. Los fallos en runtime que Voyager y Reflexion tratan como errores terminales se convierten en señales de entrenamiento. El agente se compila a sí mismo.

The implication is clear: self-evolution isn’t a property of model scale. It’s a trainable reasoning skill. The next generation of agentic pipelines won’t just optimize prompts at compile-time—they’ll self-improve at runtime, with policies trained explicitly for the skill of editing contexts that edit themselves.

La implicación es clara: la autoevolución no es una propiedad de la escala del modelo. Es una habilidad de razonamiento entrenable. La próxima generación de pipelines agénticos no solo optimizará prompts en tiempo de compilación—se auto-mejorará en runtime, con políticas entrenadas explícitamente para la habilidad de editar contextos que se editan a sí mismos.

We’re building systems that build themselves. LSE is the proof.

Estamos construyendo sistemas que se construyen a sí mismos. LSE es la prueba.


References

Referencias

  • Chen, X., Xu, C., Wang, Y., Liu, B., Yao, Z., & He, Y. (2026). *Learning to Self-Evolve*. arXiv:2603.18620. arxiv.org/abs/2603.18620
  • Code: github.com/chenyn66/learning-to-self-evolve
  • Related works: GEPA (gradient-free prompt optimization), TextGrad (differentiable prompts), Reflexion (verbal reinforcement), Voyager (open-ended skill building)
  • Chen, X., Xu, C., Wang, Y., Liu, B., Yao, Z., & He, Y. (2026). *Learning to Self-Evolve*. arXiv:2603.18620. arxiv.org/abs/2603.18620
  • Código: github.com/chenyn66/learning-to-self-evolve
  • Trabajos relacionados: GEPA (optimización de prompts sin gradientes), TextGrad (prompts diferenciables), Reflexion (refuerzo verbal), Voyager (construcción abierta de habilidades)
Compartir