Volver al blog
TurboQuant: Cuantificación Vectorial en Línea con Tasa de Distorsión Casi Óptima

TurboQuant: Cuantificación Vectorial en Línea con Tasa de Distorsión Casi Óptima

Vector quantization is the unsung hero of modern ML infrastructure. It compresses high-dimensional vectors into low-bit integers while preserving what matters: geometric structure, inner products, nearest neighbor relationships. If you work with LLM inference or vector databases, you’re already paying the quantization tax whether you know it or not.

La cuantificación vectorial es el héroe silencioso de la infraestructura moderna de ML. Comprime vectores de alta dimensión en enteros de pocos bits preservando lo que importa: estructura geométrica, productos internos, relaciones de vecino más cercano. Si trabajas con inferencia de LLM o bases de datos vectoriales, ya estás pagando el impuesto de cuantización, tanto si lo sabes como si no.

The KV cache eats memory. A single 70B model with a 128K context window can easily consume 200GB+ just to store attention keys and values. Vector databases like Qdrant or Milvus face a different but equally painful problem: billion-scale embeddings where search speed depends directly on how many bits you’re willing to burn.

El KV cache consume memoria. Un modelo único de 70B con una ventana de contexto de 128K puede fácilmente consumir más de 200GB solo para almacenar claves y valores de atención. Bases de datos vectoriales como Qdrant o Milvus enfrentan un problema diferente pero igualmente doloroso: embecciones a escala de miles de millones donde la velocidad de búsqueda depende directamente de cuántos bits estés dispuesto a gastar.


The problem with existing methods

El problema con los métodos existentes

Traditional approaches force a brutal tradeoff. Product Quantization (PQ) splits vectors into subspaces and clusters each independently. It works, but requires offline calibration, k-means fitting on representative data, and retraining whenever your data distribution drifts. For online serving or streaming data, this is a non-starter.

Los enfoques tradicionales imponen un intercambio brutal. La Cuantización de Producto (PQ) divide los vectores en subespacios y agrupa cada uno independientemente. Funciona, pero requiere calibración fuera de línea, ajuste de k-means en datos representativos, y reentrenamiento cuando la distribución de tus datos cambia. Para serveo en línea o datos en streaming, esto es un no iniciador.

Scalar approaches like uniform quantization or learned codebooks either ignore the distribution altogether or need calibration data that may not represent production traffic. They achieve respectable MSE in some regimes, but inner product distortion tends to suffer, breaking downstream tasks like attention score estimation.

Los enfoques escalares como cuantización uniforme o libros de códigos aprendidos ignoran la distribución por completo o necesitan datos de calibración que pueden no representar el tráfico de producción. Logran MSE respetable en algunos regímenes, pero la distorsión del producto interno tiende a sufrir, rompiendo tareas posteriores como la estimación de puntajes de atención.

The fundamental issue: no existing method simultaneously handles both MSE and inner products well, while also being data-oblivious (instant, no calibration).

El problema fundamental: ningún método existente maneja tanto MSE como productos internos bien, mientras también es inconsciente de los datos (instantáneo, sin calibración).


TurboQuant's insight

La visión de TurboQuant

The TurboQuant paper (Zandieh et al., 2025) makes a surprisingly simple observation: random rotation makes everything easier.

El documento TurboQuant (Zandieh et al., 2025) hace una observación sorprendentemente simple: la rotación aleatoria lo facilita todo.

Apply a random orthogonal matrix to your input vector. This has two magical effects:

Aplica una matriz ortogonal aleatoria a tu vector de entrada. Esto tiene dos efectos mágicos:

1. **Concentrated Beta distribution**: In high dimensions, each coordinate of a random unit vector follows the same Beta distribution. Every coordinate looks identical.
1. **Distribución Beta concentrada**: En alta dimensión, cada coordenada de un vector unitario aleatorio sigue la misma distribución Beta. Cada coordenada se ve idéntica.
2. **Near-independence**: Distinct coordinates become statistically independent. The d-dimensional quantization problem collapses into d independent 1D problems.
2. **Cerca-independencia**: Las coordenadas distintas se vuelven estadísticamente independientes. El problema de cuantización d-dimensional se colapsa en d problemas 1D independientes.

Once you’ve reduced the problem to 1D, you can apply Lloyd-Max scalar quantization per coordinate, which is provably optimal for MSE. No clustering, no calibration, just precomputed codebooks.

Una vez que has reducido el problema a 1D, puedes aplicar cuantización escalar Lloyd-Max por coordenada, que es óptima probada para MSE. Sin clustering, sin calibración, solo libros de códigos precomputados.


Two flavors: MSE and inner product

Dos sabores: MSE y producto interno

The basic TurboQuant is MSE-optimal, but there’s a catch: optimal MSE quantizers introduce bias. For inner product estimation, this bias breaks the math.

El TurboQuant básico es óptimo para MSE, pero hay un problema: los cuantizadores óptimos de MSE introducen sesgo. Para estimación de productos internos, este sesgo estropea los cálculos.

The paper proposes a two-stage solution:

El documento propone una solución de dos etapas:

1. First, apply the MSE quantizer as usual.
1. Primero, aplica el cuantizador MSE como de costumbre.
2. Then, apply a 1-bit *Quantized Johnson-Lindenstrauss (QJL)* transform on the residual. This corrects the bias, giving you unbiased inner product estimates.
2. Luego, aplica una transformación *Cuantizada de Johnson-Lindenstrauss (QJL)* de 1 bit en el residuo. Esto corrige el sesgo, dándote estimaciones de producto interno sin sesgo.

This matters practically. In LLM attention, you need inner products to compute softmax scores. Biased quantization means your attention weights drift, degrading generation quality even with perfect MSE.

Esto importa prácticamente. En la atención de LLM, necesitas productos internos para calcular puntajes softmax. La cuantización sesgada significa que tus pesos de atención se desplazan, degradando la calidad de generación incluso con MSE perfecto.


The numbers that matter

Los números que importan

Let’s cut to what actually matters for practitioners:

Vamos a lo que realmente importa para los practitioners:

- **Near-Shannon-optimal**: Within factor ~2.7 of the information-theoretic lower bound. At b=1 bit, only 1.45× from optimal. - **MSE distortion at 1-4 bits**: ≈0.36, 0.117, 0.03, 0.009. Decent compression at every bit-width. - **KV cache**: Absolute quality neutrality at **3.5 bits per channel**, marginal degradation at **2.5 bits**. That's >5× compression vs. 16-bit floats. - **Nearest neighbor search**: Outperforms data-dependent PQ in recall while cutting indexing time to ~zero. No k-means, no training. - **Needle-in-a-haystack**: Perfect retrieval on long-context tasks even with heavy compression.
- **Casi-óptimo de Shannon**: Dentro de un factor ~2.7 del límite inferior teórico de la información. En b=1 bit, solo 1.45× desde el óptimo. - **Distorsión MSE en 1-4 bits**: ≈0.36, 0.117, 0.03, 0.009. Compresión decente en cada ancho de bits. - **KV cache**: Neutralidad de calidad absoluta en **3.5 bits por canal**, degradación marginal en **2.5 bits**. Eso es >5× compresión vs. floats de 16 bits. - **Búsqueda de vecino más cercano**: Supera a PQ dependiente de datos en recall mientras corta el tiempo de indexación a ~zero. Sin k-means, sin entrenamiento. - **Aguja en pajar**: Recuperación perfecta en tareas de contexto largo incluso con compresión pesada.

The key advantage: zero online cost. Random rotation is O(d²) once offline; quantization itself is O(d) per vector. Compare to PQ’s clustering phase that can take hours on billion-scale datasets.

La ventaja clave: costo online cero. La rotación aleatoria es O(d²) una vez offline; la cuantización misma es O(d) por vector. Compara con la fase de clustering de PQ que puede tomar horas en conjuntos de datos a escala de miles de millones.


Implications for ML infrastructure

Implicaciones para infraestructura de ML

This paper hits different for different systems:

Este documento impacta diferente para diferentes sistemas:

vLLM / Triton Inference Server: KV cache quantization is the memory bottleneck for long context. TurboQuant gives you 3.5 bits with no quality loss. That’s 4.5× memory reduction. On a 8× A100 node, you go from ~640GB GPU memory to ~142GB. Suddenly 128K context fits on fewer cards.

vLLM / Triton Inference Server: La cuantización del KV cache es el cuello de botella de memoria para contexto largo. TurboQuant te da 3.5 bits sin pérdida de calidad. Eso es 4.5× reducción de memoria. En un nodo de 8× A100, pasas de ~640GB de memoria GPU a ~142GB. De repente 128K contexto cabe en menos tarjetas.

Vector databases (Qdrant, Milvus, Weaviate): Product quantization is standard but requires offline training. TurboQuant is data-oblivious, works streaming, and beats PQ in recall. Indexing time drops from hours to seconds. This changes the architecture story entirely.

Bases de datos vectoriales (Qdrant, Milvus, Weaviate): La cuantización de producto es estándar pero requiere entrenamiento offline. TurboQuant es inconsciente de los datos, funciona en streaming, y supera a PQ en recall. El tiempo de indexación pasa de horas a segundos. Esto cambia la historia de arquitectura completamente.

RAG pipelines: If you’re compressing embeddings before storing or searching, TurboQuant’s inner-product-optimal variant gives you unbiased similarity estimates. Your reranker sees the same distribution as uncompressed vectors.

Pipelines RAG: Si estás comprimiendo embecciones antes de almacenar o buscar, la variante de producto interno optimizada de TurboQuant te da estimaciones de similitud sin sesgo. Tu reranker ve la misma distribución que vectores sin comprimir.

DSPy / agentic systems: Semantic embeddings for retrieval, context compression, and tool representation all use vector embeddings. Better quantization means cheaper context, faster retrieval, and less degradation in agentic loops.

Sistemas DSPy / agentic: Embecciones semánticas para recuperación, compresión de contexto, y representación de herramientas todas usan embecciones vectoriales. Mejor cuantización significa contexto más barato, recuperación más rápida, y menos degradación en loops agentic.


The bigger picture

El panorama más amplio

TurboQuant represents a shift in how we think about quantization: from data-dependent training to universal, precomputed codebooks. The key insight (random rotation → independence) is simple enough to have been obvious in retrospect, but the paper provides rigorous theory and strong empirical validation.

TurboQuant representa un cambio en cómo pensamos la cuantización: desde entrenamiento dependiente de datos a libros de códigos universales y precomputados. La visión clave (rotación aleatoria → independencia) es lo suficientemente simple para haber sido obvia en retrospectiva, pero el documento proporciona teoría rigurosa y fuerte validación empírica.

For practitioners, the takeaway is straightforward: you don’t need calibration data, you don’t need offline clustering, and you don’t need to compromise on quality. The method works out of the box, adapts to any bit-width, and gets within ~2.7× of the Shannon limit.

Para practitioners, el mensaje es straightforward: no necesitas datos de calibración, no necesitas clustering offline, y no necesitas comprometerte en calidad. El método funciona fuera de la caja, se adapta a cualquier ancho de bits, y llega dentro de ~2.7× del límite de Shannon.

This is the kind of paper that changes infrastructure decisions. If you’re architecting LLM serving or vector search systems today, TurboQuant deserves a hard look.

Este es el tipo de documento que cambia decisiones de infraestructura. Si estás arquitecturando sistemas de serveo de LLM o búsqueda vectorial hoy, TurboQuant merece una mirada seria.


References

Referencias

  • Zandieh, A., Daliri, M., Hadian, M., & Mirrokni, V. (2025). *TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate*. arxiv.org/abs/2504.19874
  • Shannon, C. E. (1948). A Mathematical Theory of Communication. *Bell System Technical Journal*, 27(3), 379–423.
  • Jégou, H., Douze, M., & Schmid, C. (2008). Product Quantization for Nearest Neighbor Search. *IEEE Transactions on Pattern Analysis and Machine Intelligence*, 33(1), 117–128.
  • Du, H., Li, Z., Zhou, A., & Kamath, G. (2023). Towards Optimal Statistical Quantization. *Proceedings of ICML 2023*.
  • Dalle, G., Giryes, R., & Vemulapalli, S. (2022). Quantized Johnson-Lindenstrauss Transform. *Proceedings of NeurIPS 2022*.
  • Zandieh, A., Daliri, M., Hadian, M., & Mirrokni, V. (2025). *TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate*. arxiv.org/abs/2504.19874
  • Shannon, C. E. (1948). A Mathematical Theory of Communication. *Bell System Technical Journal*, 27(3), 379–423.
  • Jégou, H., Douze, M., & Schmid, C. (2008). Product Quantization for Nearest Neighbor Search. *IEEE Transactions on Pattern Analysis and Machine Intelligence*, 33(1), 117–128.
  • Du, H., Li, Z., Zhou, A., & Kamath, G. (2023). Towards Optimal Statistical Quantization. *Proceedings of ICML 2023*.
  • Dalle, G., Giryes, R., & Vemulapalli, S. (2022). Quantized Johnson-Lindenstrauss Transform. *Proceedings of NeurIPS 2022*.
Compartir