DeepSeek V4: Compressed Sparse Attention and the Million-Token Context

DeepSeek has released V4 Preview—two Mixture-of-Experts models that make one-million-token context windows practical and affordable. DeepSeek-V4-Pro packs 1.6 trillion total parameters with 49 billion active per token. DeepSeek-V4-Flash runs 284 billion total with 13 billion active. Both support 1M context natively, both are open-source under MIT license, and both achieve it through a hybrid attention architecture—Compressed Sparse Attention (CSA) interleaved with Heavily Compressed Attention (HCA)—that reduces inference FLOPs to 27% and KV cache to 10% of the previous V3.2 generation. At 1M tokens, this is the difference between a model that runs and one that doesn’t.

DeepSeek ha lanzado V4 Preview—dos modelos Mixture-of-Experts que hacen prácticas y asequibles las ventanas de contexto de un millón de tokens. DeepSeek-V4-Pro empaqueta 1,6 billones de parámetros totales con 49 mil millones activos por token. DeepSeek-V4-Flash ejecuta 284 mil millones totales con 13 mil millones activos. Ambos soportan 1M de contexto nativamente, ambos son código abierto bajo licencia MIT, y ambos lo logran a través de una arquitectura de atención híbrida—Atención Dispersa Comprimida (CSA) intercalada con Atención Fuertemente Comprimida (HCA)—que reduce los FLOPs de inferencia al 27% y la cache KV al 10% de la anterior generación V3.2. A 1M tokens, esta es la diferencia entre un modelo que funciona y uno que no.

The V3 Foundation: MLA and DeepSeekMoE

Los Fundamentos de V3: MLA y DeepSeekMoE

DeepSeek V4 builds directly on the architectural foundations laid by V2 and V3. Multi-head Latent Attention (MLA), introduced in V2, compresses the key-value cache through joint low-rank projection. Rather than storing full-dimension K and V tensors for each token, MLA projects them into a low-dimensional latent space, then reconstructs at attention time. The result: MLA reduces KV cache memory by 93.3% compared to standard multi-head attention. This is what made V3’s 128K context feasible, and it carries forward as V4’s baseline attention mechanism.

DeepSeek V4 construye directamente sobre los fundamentos arquitectónicos establecidos por V2 y V3. La Atención Latente Multi-cabeza (MLA), introducida en V2, comprime la cache key-value a través de proyección conjunta de bajo rango. En lugar de almacenar tensores K y V de dimensión completa para cada token, MLA los proyecta a un espacio latente de baja dimensión, luego reconstruye en el momento de la atención. El resultado: MLA reduce la memoria de cache KV en 93,3% comparado con la atención multi-cabeza estándar. Esto es lo que hizo factible el contexto de 128K de V3, y se mantiene como el mecanismo de atención base de V4.

DeepSeekMoE implements sparse Mixture-of-Experts at the feed-forward layer. Each token is routed to a small subset of expert sub-networks via a learned gating mechanism. V3 had 671B total parameters with 37B active per token—only 5.5% of the model activated per forward pass. V4-Pro scales this to 1.6T total / 49B active (3.1% activation). V4-Flash runs 284B / 13B active (4.6%). The critical innovation from V3 was auxiliary-loss-free load balancing: instead of penalizing imbalanced expert utilization through the loss function, V3 adds dynamic bias terms to router logits that adjust after each batch based on observed versus target load. This eliminates the performance degradation that auxiliary losses cause.

DeepSeekMoE implementa Mixture-of-Experts disperso en la capa feed-forward. Cada token se enruta a un pequeño subconjunto de sub-redes expertas vía un mecanismo de gating aprendido. V3 tenía 671B de parámetros totales con 37B activos por token—solo 5,5% del modelo activado por forward pass. V4-Pro escala esto a 1,6T totales / 49B activos (3,1% de activación). V4-Flash ejecuta 284B / 13B activos (4,6%). La innovación crítica de V3 fue el balanceo de carga sin pérdida auxiliar: en lugar de penalizar la utilización desbalanceada de expertos a través de la función de pérdida, V3 añade términos de sesgo dinámicos a los logits del router que se ajustan después de cada lote según la carga observada versus la objetivo. Esto elimina la degradación de rendimiento que causan las pérdidas auxiliares.

Hybrid Attention: CSA and HCA

Atención Híbrida: CSA y HCA

The central architectural innovation in V4 is the replacement of uniform attention with a hybrid mechanism combining two complementary strategies, interleaved across transformer layers. Compressed Sparse Attention (CSA) handles the selective retrieval role. Every m tokens, the KV cache is compressed into a single entry using a learned token-level compressor. A component called the Lightning Indexer scores each query against compressed KV blocks and selects the top-1,024 most relevant entries. A sliding window of 128 tokens provides local context. The model attends only to these selected entries—giving detailed, focused access to the most relevant parts of a long document without the O(n²) cost of full attention.

La innovación arquitectónica central de V4 es el reemplazo de la atención uniforme con un mecanismo híbrido que combina dos estrategias complementarias, intercaladas a través de las capas transformer. La Atención Dispersa Comprimida (CSA) maneja el rol de recuperación selectiva. Cada m tokens, la cache KV se comprime en una sola entrada usando un compresor a nivel de token aprendido. Un componente llamado Lightning Indexer puntúa cada consulta contra los bloques KV comprimidos y selecciona las 1.024 entradas más relevantes. Una ventana deslizante de 128 tokens proporciona contexto local. El modelo atiende solo a estas entradas seleccionadas—dando acceso detallado y enfocado a las partes más relevantes de un documento largo sin el costo O(n²) de la atención completa.

Heavily Compressed Attention (HCA) serves the global context role. It applies a much more aggressive compression rate (every m′ tokens, where m′ ≫ m) but then performs dense attention over the heavily compressed representation. No sparse selection needed—the compression ratio itself reduces the KV cache size. HCA gives the model a cheap, broad view of distant tokens in every layer. The interleaving pattern means the model alternates between CSA’s focused retrieval and HCA’s wide-angle context awareness throughout the depth of the network.

La Atención Fuertemente Comprimida (HCA) sirve el rol de contexto global. Aplica una tasa de compresión mucho más agresiva (cada m′ tokens, donde m′ ≫ m) pero luego realiza atención densa sobre la representación fuertemente comprimida. No se necesita selección dispersa—la propia tasa de compresión reduce el tamaño de la cache KV. HCA da al modelo una vista amplia y económica de tokens distantes en cada capa. El patrón de intercalación significa que el modelo alterna entre la recuperación enfocada de CSA y la conciencia contextual de amplio ángulo de HCA a lo largo de la profundidad de la red.

The efficiency numbers are stark. At 1M tokens, V4-Pro uses 27% of the FLOPs and 10% of the KV cache compared to V3.2. This is not incremental optimization—it’s an architectural shift that changes the cost structure of long-context inference entirely. A model that would have required prohibitive GPU memory now runs within practical limits.

Los números de eficiencia son contundentes. A 1M tokens, V4-Pro usa el 27% de los FLOPs y el 10% de la cache KV comparado con V3.2. Esto no es optimización incremental—es un cambio arquitectónico que altera la estructura de costos de la inferencia de contexto largo enteramente. Un modelo que habría requerido memoria GPU prohibitiva ahora corre dentro de límites prácticos.

Training Innovations: Muon and FP4

Innovaciones de Entrenamiento: Muon y FP4

V4 introduces three training innovations beyond the attention architecture. The Muon optimizer replaces AdamW for most parameters—a momentum-based optimizer that has shown better convergence properties for large-scale transformer training. FP4 quantization-aware training is applied to expert weights, extending V3’s FP8 mixed-precision approach by another factor of two in precision reduction. And Manifold-Constrained Hyper-Connections (mHC) improve training stability across the deeper, wider V4 architecture.

V4 introduce tres innovaciones de entrenamiento más allá de la arquitectura de atención. El optimizador Muon reemplaza a AdamW para la mayoría de los parámetros—un optimizador basado en momentum que ha mostrado mejores propiedades de convergencia para entrenamiento de transformers a gran escala. Entrenamiento consciente de cuantización FP4 se aplica a los pesos expertos, extendiendo el enfoque de precisión mixta FP8 de V3 por otro factor de dos en reducción de precisión. Y las Hiper-Conexiones Restringidas por Variedad (mHC) mejoran la estabilidad del entrenamiento a través de la arquitectura V4 más profunda y ancha.

Training data scaled from V3’s 14.8 trillion tokens to 33 trillion tokens—a 2.2× increase. V3’s entire training run required 2.788 million H800 GPU hours at a reported cost of $5.576 million. V4’s larger scale was enabled by the same philosophy of aggressive efficiency: FP8 in V3, now FP4 in V4, combined with DualPipe compute-communication overlap and custom PTX-level kernel optimizations on H800 clusters.

Los datos de entrenamiento escalaron de los 14,8 billones de tokens de V3 a 33 billones de tokens—un incremento de 2,2×. Toda la ejecución de entrenamiento de V3 requirió 2,788 millones de horas GPU H800 a un costo reportado de $5,576 millones. La mayor escala de V4 fue posible por la misma filosofía de eficiencia agresiva: FP8 en V3, ahora FP4 en V4, combinado con solapamiento computación-comunicación DualPipe y optimizaciones de kernel a nivel PTX en clusters H800.

Benchmark Performance

Rendimiento en Benchmarks

DeepSeek-V4-Pro delivers performance rivaling the top closed-source models. On SWE-bench Verified (real GitHub issue resolution): 80.6%—matching Claude Opus 4.6 at 80.8% and exceeding all other open models. On LiveCodeBench Pass@1: 93.5%, surpassing Claude Opus 4.6 (88.8%) and Gemini 3.1 Pro (91.7%). On SWE-bench Multilingual: 76.2%. On Terminal-Bench 2.0: 67.9%. On Toolathon (agentic tool-calling): 51.8% Pass@1. These numbers come with both Thinking and Think Max reasoning modes—V4-Pro supports non-thinking, thinking, and Think Max modes for configurable reasoning depth.

DeepSeek-V4-Pro entrega rendimiento que rivaliza con los mejores modelos de fuente cerrada. En SWE-bench Verified (resolución de issues reales de GitHub): 80,6%—igualando a Claude Opus 4,6 en 80,8% y superando a todos los demás modelos abiertos. En LiveCodeBench Pass@1: 93,5%, superando a Claude Opus 4,6 (88,8%) y Gemini 3,1 Pro (91,7%). En SWE-bench Multilingual: 76,2%. En Terminal-Bench 2.0: 67,9%. En Toolathon (llamada agéntica de herramientas): 51,8% Pass@1. Estos números vienen con modos de razonamiento Thinking y Think Max—V4-Pro soporta modos non-thinking, thinking y Think Max para profundidad de razonamiento configurable.

On long-context benchmarks, V4-Pro-Max scores 83.5 MMR on OpenAI MRCR 1M and 62.0 accuracy on CorpusQA 1M, surpassing Gemini-3.1-Pro-High (76.3 and 53.8 respectively). The long-context advantage is where V4’s architectural investment pays off directly—CSA’s selective retrieval and HCA’s global compression were designed specifically for this regime.

En benchmarks de contexto largo, V4-Pro-Max puntúa 83,5 MMR en OpenAI MRCR 1M y 62,0 de precisión en CorpusQA 1M, superando a Gemini-3,1-Pro-High (76,3 y 53,8 respectivamente). La ventaja de contexto largo es donde la inversión arquitectónica de V4 se paga directamente—la recuperación selectiva de CSA y la compresión global de HCA fueron diseñadas específicamente para este régimen.

V4-Flash closely approaches V4-Pro in reasoning and matches it on simple agent tasks—at dramatically lower cost. For production systems that don’t need maximum coding depth, Flash provides the cost-to-performance ratio that makes DeepSeek’s pricing disruptive.

V4-Flash se acerca estrechamente a V4-Pro en razonamiento y lo iguala en tareas de agente simples—a un costo dramáticamente menor. Para sistemas de producción que no necesitan la máxima profundidad de coding, Flash proporciona la relación costo-rendimiento que hace que el pricing de DeepSeek sea disruptivo.

API and Pricing

API y Precios

The API is available today, compatible with both OpenAI ChatCompletions and Anthropic formats. V4-Flash costs $0.14 per million input tokens (cache miss) and $0.28 per million output tokens. V4-Pro is priced at $1.74 / $3.48 per million input/output tokens, currently offered at a 75% limited-time discount ($0.435 / $0.87). Both models support 1M context, 384K max output, JSON output, tool calls, and FIM completion. Context caching reduces input costs further: Flash cache hits cost $0.028/M, Pro cache hits cost $0.03625/M (discounted).

La API está disponible hoy, compatible con formatos OpenAI ChatCompletions y Anthropic. V4-Flash cuesta $0,14 por millón de tokens de entrada (cache miss) y $0,28 por millón de tokens de salida. V4-Pro tiene un precio de $1,74 / $3,48 por millón de tokens de entrada/salida, actualmente ofrecido con un descuento limitado del 75% ($0,435 / $0,87). Ambos modelos soportan contexto 1M, salida máxima 384K, salida JSON, llamadas de herramientas y completación FIM. El cacheo de contexto reduce aún más los costos de entrada: aciertos de cache Flash cuestan $0,028/M, aciertos de cache Pro cuestan $0,03625/M (con descuento).

For comparison: Claude Opus 4.7 costs $5/$25 per million input/output tokens. GPT-5.4 costs $2.50/$15. DeepSeek V4-Pro at full price is already cheaper; at the 75% discount, it’s approximately 50× cheaper than Claude Opus for equivalent coding tasks. V4-Flash is in a different category entirely—cheaper than most 7B-parameter model APIs while delivering near-frontier performance.

Para comparar: Claude Opus 4,7 cuesta $5/$25 por millón de tokens de entrada/salida. GPT-5,4 cuesta $2,50/$15. DeepSeek V4-Pro a precio completo ya es más barato; con el 75% de descuento, es aproximadamente 50× más barato que Claude Opus para tareas de coding equivalentes. V4-Flash está en una categoría completamente diferente—más barato que la mayoría de las APIs de modelos de 7B parámetros mientras entrega rendimiento cercano a la frontera.

The Agentic Parallel

El Paralelo Agéntico

DeepSeek explicitly built V4 for agentic workloads. The announcement notes seamless integration with Claude Code, OpenClaw, and OpenCode, and that V4 already drives their in-house agentic coding. The architectural reasons are clear: 1M context means an agent can load an entire codebase into context and navigate it with CSA’s selective retrieval. Tool calls and structured outputs are native API features. The Think Max mode provides configurable reasoning depth for multi-step planning. And the pricing makes multi-model agent architectures economically viable—a V4-Flash agent that runs 10 tool calls costs less than a single Claude Opus query.

DeepSeek construyó explícitamente V4 para cargas de trabajo agénticas. El anuncio señala integración perfecta con Claude Code, OpenClaw y OpenCode, y que V4 ya impulsa su coding agéntico interno. Las razones arquitectónicas son claras: contexto de 1M significa que un agente puede cargar una base de código completa en contexto y navegarla con la recuperación selectiva de CSA. Las llamadas de herramientas y salidas estructuradas son características nativas de la API. El modo Think Max proporciona profundidad de razonamiento configurable para planificación multi-paso. Y el pricing hace viables económicamente las arquitecturas de agentes multi-modelo—un agente V4-Flash que ejecuta 10 llamadas de herramientas cuesta menos que una sola consulta a Claude Opus.

For ML engineers building agentic systems, V4 represents a specific design point: maximum context at minimum cost. Where Claude Opus optimizes for precision on surgical patches (smaller diffs, fewer hallucinations), V4 optimizes for repository-scale operations—loading entire file maps, dependency graphs, and cross-file relationships into a single context window. The practical pattern emerging in production systems: use Claude for targeted fixes, DeepSeek V4 for large-context refactoring and whole-repository analysis.

Para ingenieros de ML construyendo sistemas agénticos, V4 representa un punto de diseño específico: máximo contexto a mínimo costo. Donde Claude Opus optimiza para precisión en parches quirúrgicos (diffs más pequeños, menos alucinaciones), V4 optimiza para operaciones a escala de repositorio—cargando mapas de archivos completos, grafos de dependencias y relaciones entre archivos en una sola ventana de contexto. El patrón práctico emergente en sistemas de producción: usar Claude para correcciones dirigidas, DeepSeek V4 para refactoring de gran contexto y análisis de repositorio completo.

The Hardware Context

El Contexto de Hardware

DeepSeek’s entire training infrastructure runs on NVIDIA H800 GPUs—the China-market variant of Hopper with reduced interconnect bandwidth due to US export controls. V3 trained on 2,048 H800 GPUs for 57 days. The cost was $5.576 million. This constraint has forced architectural innovation: when you can’t throw more compute at the problem, you optimize the architecture. MLA, auxiliary-loss-free load balancing, FP8 training, DualPipe overlap, and now CSA+HCA attention are all responses to the hardware constraint. The result is a model family that achieves frontier performance at a fraction of the compute budget of Western labs—exactly because the compute budget was constrained.

Toda la infraestructura de entrenamiento de DeepSeek corre en GPUs NVIDIA H800—la variante para el mercado chino de Hopper con ancho de banda de interconexión reducido debido a los controles de exportación de EE.UU. V3 entrenó en 2.048 GPUs H800 durante 57 días. El costo fue de $5,576 millones. Esta restricción ha forzado innovación arquitectónica: cuando no puedes lanzar más cómputo al problema, optimizas la arquitectura. MLA, balanceo de carga sin pérdida auxiliar, entrenamiento FP8, solapamiento DualPipe, y ahora atención CSA+HCA son todas respuestas a la restricción de hardware. El resultado es una familia de modelos que alcanza rendimiento de frontera a una fracción del presupuesto de cómputo de los labs occidentales—exactamente porque el presupuesto de cómputo estaba restringido.

Open Source and Ecosystem

Código Abierto y Ecosistema

V4 continues DeepSeek’s commitment to open weights. Both Pro and Flash models are available on HuggingFace under MIT license. The model weights, technical report, and inference code are all public. Community adoption is immediate: vLLM and SGLang have added optimized serving backends, Cursor and Continue.dev have integrated V4 as a coding model option, and the open-source ecosystem around DeepSeek continues to expand. The previous deepseek-chat and deepseek-reasoner API endpoints will retire on July 24, 2026, routing to V4-Flash non-thinking and thinking modes respectively.

V4 continúa el compromiso de DeepSeek con los pesos abiertos. Ambos modelos Pro y Flash están disponibles en HuggingFace bajo licencia MIT. Los pesos del modelo, reporte técnico y código de inferencia son todos públicos. La adopción comunitaria es inmediata: vLLM y SGLang han añadido backends de serving optimizados, Cursor y Continue.dev han integrado V4 como opción de modelo de coding, y el ecosistema de código abierto alrededor de DeepSeek continúa expandiéndose. Los endpoints API anteriores deepseek-chat y deepseek-reasoner se retirarán el 24 de julio de 2026, enrutando a los modos non-thinking y thinking de V4-Flash respectivamente.

Why This Matters

Por Qué Importa

DeepSeek V4’s significance is not just benchmark numbers—it’s the demonstration that architectural innovation can substitute for compute scale. The CSA+HCA hybrid attention makes 1M context practical at 27% of the previous generation’s FLOPs. The Muon optimizer and FP4 training extract more learning per GPU hour. The MoE routing means only 3.1% of parameters activate per token. Combined, these innovations produce a model that matches GPT-5 and Claude on agentic coding benchmarks at 50× lower API cost—all trained on export-controlled hardware that was supposed to be a disadvantage. V4 proves that efficiency constraints, when met with the right architectural choices, produce better systems than unconstrained brute force.

La importancia de DeepSeek V4 no es solo números de benchmarks—es la demostración de que la innovación arquitectónica puede sustituir la escala de cómputo. La atención híbrida CSA+HCA hace práctico el contexto de 1M al 27% de los FLOPs de la generación anterior. El optimizador Muon y el entrenamiento FP4 extraen más aprendizaje por hora GPU. El enrutamiento MoE significa que solo 3,1% de los parámetros se activan por token. Combinadas, estas innovaciones producen un modelo que iguala a GPT-5 y Claude en benchmarks de coding agéntico a 50× menor costo de API—todo entrenado en hardware con controles de exportación que se suponía era una desventaja. V4 prueba que las restricciones de eficiencia, cuando se enfrentan con las elecciones arquitectónicas correctas, producen mejores sistemas que la fuerza bruta sin restricciones.

References

Referencias

DeepSeek-AI (2026). *DeepSeek-V4 Preview Release*. api-docs.deepseek.com/news/news260424
DeepSeek-AI (2024). *DeepSeek-V3 Technical Report*. arxiv.org/abs/2412.19437.
DeepSeek-AI (2024). *DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model*. arxiv.org/abs/2405.04434.
Wang, H. et al. (2024). *Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts*. arxiv.org/abs/2408.12560.
DeepSeek-AI. *Open Weights*. huggingface.co/collections/deepseek-ai/deepseek-v4

DeepSeek-AI (2026). *Lanzamiento Preview de DeepSeek-V4*. api-docs.deepseek.com/news/news260424
DeepSeek-AI (2024). *Reporte Técnico de DeepSeek-V3*. arxiv.org/abs/2412.19437.
DeepSeek-AI (2024). *DeepSeek-V2: Un Modelo de Lenguaje MoE Fuerte, Económico y Eficiente*. arxiv.org/abs/2405.04434.
Wang, H. et al. (2024). *Estrategia de Balanceo de Carga Sin Pérdida Auxiliar para Mixture-of-Experts*. arxiv.org/abs/2408.12560.
DeepSeek-AI. *Pesos Abiertos*. huggingface.co/collections/deepseek-ai/deepseek-v4