Quantum Kernel Advantage over Classical Collapse

The Kernel Collapse Problem

El Problema del Colapso del Kernel

Classical support vector machines (SVMs) with linear kernels collapse when the input dimensionality is low relative to the number of classes. After PCA compression to q dimensions, the linear kernel matrix has at most q non-zero eigenvalues out of N training samples. This means the decision boundary has at most q degrees of freedom — insufficient to separate classes in a complex embedding space. The result is majority-class prediction: the minority class F1 drops to zero.

Las máquinas de vectores de soporte (SVM) clásicas con kernels lineales colapsan cuando la dimensionalidad de entrada es baja en relación con el número de clases. Después de la compresión PCA a q dimensiones, la matriz del kernel lineal tiene como máximo q valores propios no nulos de N muestras de entrenamiento. Esto significa que el límite de decisión tiene como máximo q grados de libertad — insuficientes para separar clases en un espacio de embeddings complejo. El resultado es la predicción de la clase mayoritaria: el F1 de la clase minoritaria cae a cero.

The Quantum Alternative

La Alternativa Cuántica

Quantum kernel methods (Havlíček et al., 2019; Schuld & Killoran, 2019) replace the classical kernel with a quantum circuit that computes inner products in an exponentially large Hilbert space. Instead of computing K(x_i, x_j) = x_i · x_j in q-dimensional space, a quantum kernel maps each input to a quantum state via a parameterized circuit and computes |⟨0^q|U†(x_i)U(x_j)|0^q⟩|² — an inner product in a 2^q-dimensional Hilbert space. This is the kernel trick taken to its logical extreme: the feature space is not just high-dimensional, it is exponentially large in the number of qubits.

Los métodos de kernel cuántico (Havlíček et al., 2019; Schuld & Killoran, 2019) reemplazan el kernel clásico con un circuito cuántico que computa productos internos en un espacio de Hilbert exponencialmente grande. En lugar de computar K(x_i, x_j) = x_i · x_j en un espacio q-dimensional, un kernel cuántico mapea cada entrada a un estado cuántico vía un circuito parametrizado y computa |⟨0^q|U†(x_i)U(x_j)|0^q⟩|² — un producto interno en un espacio de Hilbert de 2^q dimensiones. Este es el kernel trick llevado a su extremo lógico: el espacio de características no solo es de alta dimensión — es exponencialmente grande en el número de qubits.

The MIT Experiment

El Experimento del MIT

Cajas Ordóñez et al. (MIT Critical Data, Apr 2026) tested this empirically on a real-world medical imaging task: binary insurance classification (Medicare/Medicaid vs. Private) on MIMIC-CXR chest radiographs — 2,371 samples, 69.6/30.4 class imbalance. They extracted frozen embeddings from three medical foundation models (MedSigLIP-448, RAD-DINO, ViT-patch32), compressed them to q dimensions via PCA (q ∈ {4, 6, 8, 9, 10, 11, 12, 16}), and compared QSVM against classical linear and RBF SVM baselines at identical feature dimensionality.

Cajas Ordóñez et al. (MIT Critical Data, Abr 2026) probaron esto empíricamente en una tarea real de imágenes médicas: clasificación binaria de seguros (Medicare/Medicaid vs. Privado) en radiografías de tórax MIMIC-CXR — 2,371 muestras, desbalance de clases 69.6/30.4. Extrajeron embeddings congelados de tres modelos fundacionales médicos (MedSigLIP-448, RAD-DINO, ViT-patch32), los comprimieron a q dimensiones vía PCA (q ∈ {4, 6, 8, 9, 10, 11, 12, 16}), y compararon QSVM contra líneas base clásicas SVM lineal y RBF a dimensionalidad de característica idéntica.

The results are striking. In Tier 1 (untuned QSVM vs. untuned linear SVM, both C=1), QSVM won minority-class F1 in all 18 tested configurations across 10 embedding seeds (17 at p < 0.001, 1 at p < 0.01). The classical linear kernel collapsed to majority-class prediction (F1 = 0) on 90-100% of seeds at every qubit count. At q=11 (the optimal point for MedSigLIP-448), QSVM achieved mean F1 = 0.343 ± 0.170 vs. classical F1 = 0.050 ± 0.159 (ΔF1 = +0.293, p < 0.001) — without any hyperparameter tuning.

Los resultados son sorprendentes. En el Nivel 1 (QSVM sin ajuste vs. SVM lineal sin ajuste, ambos C=1), QSVM ganó el F1 de clase minoritaria en las 18 configuraciones probadas en 10 semillas de embedding (17 con p < 0.001, 1 con p < 0.01). El kernel lineal clásico colapsó a predicción de clase mayoritaria (F1 = 0) en el 90-100% de las semillas en cada conteo de qubits. En q=11 (el punto óptimo para MedSigLIP-448), QSVM alcanzó F1 medio = 0.343 ± 0.170 vs. F1 clásico = 0.050 ± 0.159 (ΔF1 = +0.293, p < 0.001) — sin ningún ajuste de hiperparámetros.

Why Classical Kernels Collapse

Por Qué Colapsan los Kernels Clásicos

The root cause is structural. After PCA reduction to q dimensions, the linear kernel matrix K_L = X_norm X_norm^T has at most q non-zero eigenvalues out of N = 1,896 training samples. The effective rank (Shannon entropy of the eigenvalue distribution) at q=4 is only 3.77 — meaning the kernel has fewer than 4 independent degrees of freedom to separate 2 classes in a complex embedding space derived from a foundation model trained on millions of medical images.

La causa raíz es estructural. Después de la reducción PCA a q dimensiones, la matriz del kernel lineal K_L = X_norm X_norm^T tiene como máximo q valores propios no nulos de N = 1,896 muestras de entrenamiento. El rango efectivo (entropía Shannon de la distribución de valores propios) en q=4 es solo 3.77 — lo que significa que el kernel tiene menos de 4 grados de libertad independientes para separar 2 clases en un espacio de embeddings complejo derivado de un modelo fundacional entrenado en millones de imágenes médicas.

The quantum kernel tells a different story. At q=4, the effective rank reaches 6.86 (1.82× the linear value). At q=6, it reaches 13.94 (2.52×). At q=11, the multi-seed mean quantum kernel effective rank reaches 69.80 — far exceeding the linear kernel rank of exactly 11. The quantum kernel operates in a feature space that is not merely higher-dimensional, but structurally richer — its eigenvalue spectrum decays more slowly, distributing discriminative information across more dimensions.

El kernel cuántico cuenta una historia diferente. En q=4, el rango efectivo alcanza 6.86 (1.82× el valor lineal). En q=6, alcanza 13.94 (2.52×). En q=11, el rango efectivo medio del kernel cuántico en múltiples semillas alcanza 69.80 — superando ampliamente el rango del kernel lineal de exactamente 11. El kernel cuántico opera en un espacio de características que no es meramente de mayor dimensión, sino estructuralmente más rico — su espectro de valores propios decae más lentamente, distribuyendo información discriminativa a través de más dimensiones.

The Circuit Design

El Diseño del Circuito

The quantum circuit uses a Block-Sparse Parameterization with one degree of freedom per qubit: each qubit receives a single parameterized Ry rotation encoding one PCA component. Ring entanglement connects each qubit to the next, with the last qubit wrapping back to the first. The kernel is computed via the compute–uncompute strategy and trace-normalized before being passed to the SVM solver.

El circuito cuántico usa una Parametrización de Bloques Dispersos con un grado de libertad por qubit: cada qubit recibe una rotación Ry parametrizada codificando un componente PCA. El entrelazamiento en anillo conecta cada qubit al siguiente, con el último qubit volviendo al primero. El kernel se computa mediante la estrategia compute–uncompute y se normaliza por traza antes de pasarse al solver SVM.

Three design rules emerged from ablation studies. Trace normalization is necessary — Frobenius normalization collapses QSVM F1 to zero across all models. 1-DOF angle encoding outperforms 3-DOF — one Ry per qubit consistently beats three rotations (Rz-Ry-Rz) per qubit. Increasing re-uploading depth degrades performance at q=8, because the bottleneck is sample size, not circuit capacity.

Tres reglas de diseño surgieron de los estudios de ablación. La normalización por traza es necesaria — la normalización Frobenius colapsa el F1 de QSVM a cero en todos los modelos. La codificación de ángulo 1-DOF supera a 3-DOF — un Ry por qubit supera consistentemente a tres rotaciones (Rz-Ry-Rz) por qubit. Aumentar la profundidad de re-uploading degrada el rendimiento en q=8, porque el cuello de botella es el tamaño de muestra, no la capacidad del circuito.

Tier 2: Even Against Tuned Classical Kernels

Nivel 2: Incluso Contra Kernels Clásicos Ajustados

To rule out the argument that the classical collapse is merely a tuning artifact, Tier 2 pitted untuned QSVM (C=1) against the best C-tuned RBF kernel (grid search over C ∈ {0.01, 0.1, 1, 10, 100}, default γ). Even when the classical side had the advantage of hyperparameter optimization, QSVM won all 7 tested configurations (mean gain +0.068 F1, max +0.112). The quantum advantage is not a tuning artifact — it is structural.

Para descartar el argumento de que el colapso clásico es meramente un artefacto de ajuste, el Nivel 2 enfrentó a QSVM sin ajuste (C=1) contra el mejor RBF con ajuste de C (búsqueda de cuadrícula sobre C ∈ {0.01, 0.1, 1, 10, 100}, γ por defecto). Incluso cuando el lado clásico tenía la ventaja de la optimización de hiperparámetros, QSVM ganó las 7 configuraciones probadas (ganancia media de +0.068 F1, máxima +0.112). La ventaja cuántica no es un artefacto de ajuste — es estructural.

Implications for Quantum Machine Learning

Implicaciones para el Aprendizaje Automático Cuántico

This study is one of the largest empirical demonstrations of quantum kernel advantage on real clinical data — 2,371 samples, 3 foundation models, 8 qubit counts, 10 seeds each, 550 QSVM configurations plus 1,100 classical baselines. The 18/18 Tier-1 win rate across all configurations provides strong evidence that quantum kernels can extract discriminative structure that classical kernels miss, specifically in the low-dimensional regime where PCA compression creates a structural bottleneck for classical methods.

Este estudio es una de las mayores demostraciones empíricas de ventaja de kernel cuántico en datos clínicos reales — 2,371 muestras, 3 modelos fundacionales, 8 conteos de qubits, 10 semillas cada uno, 550 configuraciones QSVM más 1,100 líneas base clásicas. La tasa de victorias de 18/18 en el Nivel 1 en todas las configuraciones proporciona evidencia sólida de que los kernels cuánticos pueden extraer estructura discriminativa que los kernels clásicos no captan, específicamente en el régimen de baja dimensión donde la compresión PCA crea un cuello de botella estructural para los métodos clásicos.

The quantum advantage window opens precisely where classical methods are structurally constrained: when input dimensionality is low enough that the classical kernel’s effective rank limits its expressivity, but not so low that the quantum kernel itself succumbs to exponential concentration (the “barren plateau” problem for kernels). The practical insight: quantum kernel methods are most likely to provide value in small-sample, moderate-dimensionality regimes — exactly the conditions that arise when working with frozen foundation model embeddings under quantum hardware constraints.

La ventana de ventaja cuántica se abre precisamente donde los métodos clásicos están estructuralmente limitados: cuando la dimensionalidad de entrada es suficientemente baja como para que el rango efectivo del kernel clásico limite su expresividad, pero no tan baja como para que el propio kernel cuántico sucumba a la concentración exponencial (el problema de “barren plateau” para kernels). La idea práctica: los métodos de kernel cuántico tienen más probabilidades de proporcionar valor en regímenes de muestra pequeña y dimensionalidad moderada — exactamente las condiciones que surgen al trabajar con embeddings de modelos fundacionales congelados bajo restricciones de hardware cuántico.

Reproducibility

Reproducibilidad

All source code, SLURM job configurations, and analysis scripts are available at github.com/sebasmos/qml-medimage. Pre-computed foundation model embeddings are hosted at huggingface.co/datasets/MITCriticalData/qml-mimic-cxr-embeddings. Single-seed results can be reproduced in approximately 12 GPU-hours on an NVIDIA H100.

Todo el código fuente, configuraciones de trabajos SLURM y scripts de análisis están disponibles en github.com/sebasmos/qml-medimage. Los embeddings precomputados de modelos fundacionales están alojados en huggingface.co/datasets/MITCriticalData/qml-mimic-cxr-embeddings. Los resultados de una sola semilla pueden reproducirse en aproximadamente 12 horas-GPU en una NVIDIA H100.

References

Referencias

Cajas Ordóñez, S. et al. (2026). *Quantum Kernel Advantage over Classical Collapse in Medical Foundation Model Embeddings*. arxiv.org/abs/2604.24597
Havlíček, V. et al. (2019). *Supervised learning with quantum-enhanced feature spaces*. nature.com/articles/s41586-019-0980-2
Schuld, M. & Killoran, N. (2019). *Quantum machine learning in feature Hilbert spaces*. journals.aps.org/prl/abstract/10.1103/PhysRevLett.122.040504
Thanasilp, S. et al. (2022). *Exponential concentration in quantum kernel methods*. arxiv.org/abs/2208.11084
Kübler, J. et al. (2021). *The inductive bias of quantum kernels*. proceedings.neurips.cc/paper/2021/hash/69adc1e107f7f7d035d7baf04342e1ca-Abstract.html

Cajas Ordóñez, S. et al. (2026). *Quantum Kernel Advantage over Classical Collapse in Medical Foundation Model Embeddings*. arxiv.org/abs/2604.24597
Havlíček, V. et al. (2019). *Supervised learning with quantum-enhanced feature spaces*. nature.com/articles/s41586-019-0980-2
Schuld, M. & Killoran, N. (2019). *Quantum machine learning in feature Hilbert spaces*. journals.aps.org/prl/abstract/10.1103/PhysRevLett.122.040504
Thanasilp, S. et al. (2022). *Exponential concentration in quantum kernel methods*. arxiv.org/abs/2208.11084
Kübler, J. et al. (2021). *The inductive bias of quantum kernels*. proceedings.neurips.cc/paper/2021/hash/69adc1e107f7f7d035d7baf04342e1ca-Abstract.html