Context-CoT: Enseñando a los LLMs a Aprender del Contexto

Large language models can solve PhD-level math, write production code, and beat the SAT. But give them a 10K-token document with genuinely new rules — a fictional legal code, a novel scientific framework, an unfamiliar dishwasher manual — and they collapse. Frontier models solve only 17.2% of these context-dependent tasks on CL-Bench. GPT-5.1 manages 23.7%. Open-source models hover around 13-15%.

Los modelos de lenguaje grandes pueden resolver matemáticas de nivel PhD, escribir código de producción y superar el SAT. Pero dales un documento de 10K tokens con reglas genuinamente nuevas —un código legal ficticio, un marco científico novedoso, un manual de lavavajillas desconocido— y se desploman. Los modelos frontier resuelven solo el 17.2% de estas tareas dependientes de contexto en CL-Bench. GPT-5.1 alcanza el 23.7%. Los modelos open-source rondan el 13-15%.

Context-CoT (Jin, Zhu, Tian et al., Peking University, Xiamen University, Tsinghua University, May 2026) attacks this gap with a three-stage data synthesis pipeline that produces high-quality, hallucination-free reasoning trajectories. Fine-tuning on just ~4K synthesized samples boosts Qwen3.5-4B by +3.79 points and Llama3.2-3B by +4.53 points on CL-Bench.

Context-CoT (Jin, Zhu, Tian et al., Universidad de Pekín, Universidad de Xiamen, Universidad de Tsinghua, mayo 2026) ataca esta brecha con un pipeline de síntesis de datos en tres etapas que produce trayectorias de razonamiento de alta calidad y libres de alucinaciones. El fine-tuning con solo ~4K muestras sintetizadas mejora Qwen3.5-4B en +3.79 puntos y Llama3.2-3B en +4.53 puntos en CL-Bench.

The Context Learning Problem

El Problema del Aprendizaje de Contexto

Standard reasoning benchmarks (math, code, logic) test a model’s ability to apply static pre-trained knowledge. Context learning is fundamentally different: the model must dynamically extract, internalize, and reason over genuinely new information from a long, task-specific context — often 10K+ tokens containing fictional rules, novel domain knowledge, or empirical discovery patterns that conflict with or are absent from pre-training data.

CL-Bench (Dou et al., 2026) formalizes this into four categories:

Domain Knowledge Reasoning — applying novel domain-specific facts from a text
Rule System Application — following fictional rule systems with precise logic
Procedural Task Execution — executing multi-step procedures from documentation
Empirical Discovery & Simulation — inferring patterns from novel experimental data

The gap is stark because existing CoT synthesis methods actively harm context learning. When teacher models are given the reference answer, they generate fluent post-hoc rationalizations that look correct but bypass genuine context extraction — teaching student models to imitate answer-conditioned explanations rather than to read and reason.

Los benchmarks estándar de razonamiento (matemáticas, código, lógica) evalúan la capacidad de un modelo para aplicar conocimiento pre-entrenado estático. El aprendizaje de contexto es fundamentalmente diferente: el modelo debe extraer, internalizar y razonar dinámicamente sobre información genuinamente nueva de un contexto largo y específico de la tarea — a menudo 10K+ tokens que contienen reglas ficticias, conocimiento novedoso o patrones de descubrimiento empírico que conflictúan con o están ausentes de los datos de pre-entrenamiento.

CL-Bench (Dou et al., 2026) formaliza esto en cuatro categorías:

Razonamiento de Conocimiento de Dominio — aplicar hechos novedosos específicos de un dominio
Aplicación de Sistemas de Reglas — seguir sistemas de reglas ficticios con lógica precisa
Ejecución de Tareas Procedurales — ejecutar procedimientos multi-paso de documentación
Descubrimiento y Simulación Empírica — inferir patrones de datos experimentales novedosos

La brecha es enorme porque los métodos existentes de síntesis de CoT activamente perjudican el aprendizaje de contexto. Cuando los modelos teacher reciben la respuesta de referencia, generan racionalizaciones post-hoc fluidas que se ven correctas pero evitan la extracción genuina de contexto — enseñando a los modelos student a imitar explicaciones condicionadas a la respuesta en lugar de leer y razonar.

The Context-CoT Pipeline

El Pipeline de Context-CoT

Context-CoT replaces naive CoT distillation with a three-stage pipeline that explicitly addresses why standard synthesis fails for context learning.

Context-CoT reemplaza la destilación ingenua de CoT con un pipeline de tres etapas que aborda explícitamente por qué la síntesis estándar falla para el aprendizaje de contexto.

Stage 1: Multi-Stage CoT SamplingEtapa 1: Muestreo CoT Multi-Etapa

Instead of asking the teacher model to generate a single reasoning chain from question to answer, Context-CoT decomposes generation into two explicit phases:

Knowledge extraction — The model is instructed to scan the provided context and extract the specific rules, definitions, or procedural constraints before attempting to answer.
Reasoning — The isolated information is then applied to solve the task, using deductive reasoning for structured rules or inductive reasoning for empirical patterns.

Multiple reasoning paths are sampled per task at high temperature, creating a diverse pool of candidate trajectories. This two-phase structure mirrors the actual cognitive process required for context learning: find the relevant information, then reason with it.

En lugar de pedir al modelo teacher que genere una sola cadena de razonamiento de pregunta a respuesta, Context-CoT descompone la generación en dos fases explícitas:

Extracción de conocimiento — Se instruye al modelo a escanear el contexto proporcionado y extraer las reglas, definiciones o restricciones procedurales específicas antes de intentar responder.
Razonamiento — La información aislada se aplica entonces para resolver la tarea, usando razonamiento deductivo para reglas estructuradas o razonamiento inductivo para patrones empíricos.

Se muestrean múltiples caminos de razonamiento por tarea a alta temperatura, creando un conjunto diverso de trayectorias candidatas. Esta estructura de dos fases refleja el proceso cognitivo real requerido para el aprendizaje de contexto: encontrar la información relevante, luego razonar con ella.

Stage 2: Rubric-Based Minimum-Leakage FilteringEtapa 2: Filtrado de Mínima Filtración Basado en Rúbricas

This is the paper’s key methodological contribution. Standard CoT synthesis exposes the reference answer during generation, which produces post-hoc rationalizations — fluent explanations that justify a known answer rather than derive it from context. Such trajectories are actively harmful for student fine-tuning.

Context-CoT’s minimum-leakage protocol:

The teacher receives only the context and question — no reference answer, no rubrics
Each generated trajectory is filtered through a separate LLM judge using the hidden reference answer and full rubric set
Failed trajectories receive only one failed rubric as corrective feedback, not the full answer
The teacher regenerates under this minimally strengthened prompt
After iterative refinement rounds, only trajectories that pass all hidden rubrics are retained

Starting from 25,060 raw candidates, this pipeline retains 21,297 after rubric filtering (85% pass rate). The key insight: by keeping the answer hidden throughout generation, retained CoTs encode genuine context-extraction behavior rather than answer-conditioned rationalization.

Esta es la contribución metodológica clave del paper. La síntesis estándar de CoT expone la respuesta de referencia durante la generación, lo que produce racionalizaciones post-hoc — explicaciones fluidas que justifican una respuesta conocida en lugar de derivarla del contexto. Dichas trayectorias son activamente dañinas para el fine-tuning del estudiante.

El protocolo de mínima filtración de Context-CoT:

El teacher recibe solo el contexto y la pregunta — sin respuesta de referencia, sin rúbricas
Cada trayectoria generada se filtra mediante un juez LLM separado usando la respuesta de referencia y el conjunto completo de rúbricas ocultos
Las trayectorias fallidas reciben solo una rúbrica fallida como retroalimentación correctiva, no la respuesta completa
El teacher regenera bajo este prompt mínimamente reforzado
Tras rondas iterativas de refinamiento, solo se retienen las trayectorias que pasan todas las rúbricas ocultas

Partiendo de 25,060 candidatos brutos, este pipeline retiene 21,297 después del filtrado por rúbricas (tasa de aprobación del 85%). La idea clave: al mantener la respuesta oculta durante toda la generación, los CoT retenidos codifican comportamiento genuino de extracción de contexto en lugar de racionalización condicionada a la respuesta.

Stage 3: Student-Aware CoT SelectionEtapa 3: Selección de CoT Consciente del Estudiante

Even correct, context-grounded CoTs vary in how well a smaller student model can learn from them. Different teacher models produce different reasoning granularities and linguistic styles. Context-CoT introduces a student-aware alignment score with two components:

Step-wise alignment (S_step): Measures whether reasoning difficulty is smoothly distributed across steps. Penalizes difficulty jumps that would confuse the student.
Reasoning gain (S_Δ): Measures how much the CoT reduces the student’s uncertainty about the answer, computed as the perplexity reduction from conditioning on the reasoning chain.

Both scores are computed using the target student model’s own distribution — making the selection specific to the model being fine-tuned. The final selected CoT is the one that maximizes the weighted combination of smooth difficulty progression and uncertainty reduction.

Of 21,297 rubric-passed candidates, only 4,179 survive student-aware selection (16.7% of the original pool) — one carefully chosen trajectory per question-answer pair.

Incluso los CoT correctos y fundamentados en contexto varían en cuán bien un modelo student más pequeño puede aprender de ellos. Diferentes modelos teacher producen diferentes granularidades de razonamiento y estilos lingüísticos. Context-CoT introduce un puntaje de alineación consciente del estudiante con dos componentes:

Alineación por pasos (S_step): Mide si la dificultad del razonamiento está distribuida suavemente entre los pasos. Penaliza saltos de dificultad que confundirían al estudiante.
Ganancia de razonamiento (S_Δ): Mide cuánto reduce el CoT la incertidumbre del estudiante sobre la respuesta, calculada como la reducción de perplejidad al condicionar en la cadena de razonamiento.

Ambos puntajes se computan usando la distribución del propio modelo student objetivo — haciendo la selección específica para el modelo que se está ajustando. El CoT final seleccionado es el que maximiza la combinación ponderada de progresión suave de dificultad y reducción de incertidumbre.

De 21,297 candidatos que pasaron las rúbricas, solo 4,179 sobreviven la selección consciente del estudiante (16.7% del pool original) — una trayectoria cuidadosamente elegida por cada par pregunta-respuesta.

Results

Resultados

Fine-tuning on Context-CoT’s ~4K samples produces consistent gains across all four CL-Bench categories:

El fine-tuning con las ~4K muestras de Context-CoT produce ganancias consistentes en las cuatro categorías de CL-Bench:

Model	Method	Overall	Domain	Empirical	Procedural	Rule
Qwen3.5-4B	Base	9.06	9.63	11.05	6.91	9.40
	Answer-only SFT	9.32	10.87	8.38	7.66	9.14
	Answer-exposed CoT	8.59	9.66	9.52	7.23	8.08
	Context-CoT	12.85	14.88	12.31	10.25	12.72
Llama3.2-3B	Base	3.04	3.44	2.59	3.29	2.52
	Answer-only SFT	4.25	4.19	5.18	2.91	5.02
	Answer-exposed CoT	2.71	2.22	2.21	3.19	3.08
	Context-CoT	7.57	9.11	5.76	7.89	6.20

Two findings stand out. Answer-exposed CoT actively degrades performance — it’s worse than both the base model and answer-only SFT in most configurations. This confirms the paper’s core diagnosis: post-hoc rationalizations from answer-conditioned generation teach students to mimic explanations rather than extract and reason over context.

Student-aware selection also matters. Ablations show that replacing it with random selection drops performance by ~0.8 points on average, and by over 2 points in the Empirical Discovery category where reasoning style diversity is highest.

Dos hallazgos destacan. El CoT con respuesta expuesta degrada activamente el rendimiento — es peor que el modelo base y que SFT solo con respuesta en la mayoría de las configuraciones. Esto confirma el diagnóstico central del paper: las racionalizaciones post-hoc de la generación condicionada a la respuesta enseñan a los estudiantes a imitar explicaciones en lugar de extraer y razonar sobre el contexto.

La selección consciente del estudiante también importa. Las ablaciones muestran que reemplazarla con selección aleatoria reduce el rendimiento en ~0.8 puntos en promedio, y en más de 2 puntos en la categoría de Descubrimiento Empírico donde la diversidad de estilos de razonamiento es más alta.

Why This Matters

Por Qué Esto Importa

Context learning is arguably the missing capability between today’s LLMs and reliable deployment in knowledge-intensive domains. Legal research, medical diagnosis, technical support, scientific discovery — these all require models to read new material and apply it faithfully, not regurgitate pre-training memoranda.

Context-CoT’s contribution is a data-centric approach to this problem. Instead of architectural changes or new training paradigms, it shows that how you generate training data determines what models learn. The minimum-leakage insight generalizes beyond context learning: anytime you distill reasoning from a stronger model, answer-conditioned rationalization is a threat to faithful student learning.

The 4K-sample dataset is released as part of the paper, making this immediately actionable for any team fine-tuning open-source models for context-dependent tasks.

El aprendizaje de contexto es posiblemente la capacidad faltante entre los LLMs actuales y el despliegue fiable en dominios intensivos en conocimiento. Investigación legal, diagnóstico médico, soporte técnico, descubrimiento científico — todos requieren que los modelos lean material nuevo y lo apliquen fielmente, no que regurgiten memorandos de pre-entrenamiento.

La contribución de Context-CoT es un enfoque centrado en datos para este problema. En lugar de cambios arquitectónicos o nuevos paradigmas de entrenamiento, muestra que cómo generas los datos de entrenamiento determina qué aprenden los modelos. La idea de mínima filtración generaliza más allá del aprendizaje de contexto: cada vez que destilas razonamiento de un modelo más fuerte, la racionalización condicionada a la respuesta es una amenaza para el aprendizaje fiel del estudiante.

El dataset de 4K muestras se publica como parte del paper, haciendo esto inmediatamente accionable para cualquier equipo que ajuste modelos open-source para tareas dependientes de contexto.

References Referencias