Reconstrucción de Fotografías de Internet de Cola Larga

Internet photo collections follow a power law: a handful of landmarks like the Colosseum or Notre Dame are photographed from every conceivable angle, while the vast majority of real-world sites exist on the Internet as just a handful of sparse, noisy images. This long tail — hundreds of thousands of scenes with fewer than 50 registered photos — is where both classical SfM and modern learned 3D methods break down. A new paper from Li, Xiangli, Averbuch-Elor, Snavely, and Cai (2026) tackles this head-on with MegaDepth-X and a sampling strategy designed to simulate the long tail from well-reconstructed data.

Las colecciones de fotografías de Internet siguen una ley de potencia: un puñado de monumentos como el Coliseo o Notre Dame son fotografiados desde todos los ángulos concebibles, mientras que la gran mayoría de los sitios reales existen en Internet como apenas un puñado de imágenes dispersas y ruidosas. Esta cola larga — cientos de miles de escenas con menos de 50 fotos registradas — es donde tanto los métodos SfM clásicos como los modernos modelos 3D aprendidos fallan. Un nuevo paper de Li, Xiangli, Averbuch-Elor, Snavely y Cai (2026) aborda esto de frente con MegaDepth-X y una estrategia de muestreo diseñada para simular la cola larga a partir de datos bien reconstruidos.

The Long-Tail Problem in 3D

El Problema de la Cola Larga en 3D

The scale of the problem is staggering. Analysis of the MegaScenes dataset reveals 418,056 scenes with fewer than 50 registered images, versus just 6,985 with more than 50. That’s a 60:1 ratio of tail to head. These aren’t edge cases — they’re the norm. Yet the standard protocols for building and evaluating 3D systems operate almost entirely on the head.

La escala del problema es asombrosa. El análisis del dataset MegaScenes revela 418,056 escenas con menos de 50 imágenes registradas, frente a solo 6,985 con más de 50. Es una proporción de 60:1 de cola a cabeza. Estos no son casos extremos — son la norma. Sin embargo, los protocolos estándar para construir y evaluar sistemas 3D operan casi enteramente en la cabeza.

The authors identify two specific failure patterns in long-tail scenes:

Los autores identifican dos patrones de fallo específicos en escenas de cola larga:

- Sparser connectivity: 8% of cameras in low-registration scenes have degree ≤2 (vs. 3% in head scenes). The view graph is fragmented into weakly connected clusters.

- Conectividad más dispersa: el 8% de las cámaras en escenas con bajo registro tienen grado ≤2 (vs. 3% en escenas cabeza). El grafo de vistas está fragmentado en clusters débilmente conectados.

- Weaker connections: average geometrically verified feature matches drop from 395.3 (head) to 294.8 (tail). Even when images overlap, the signal is weaker and noisier.

- Conexiones más débiles: el promedio de coincidencias de características verificadas geométricamente cae de 395.3 (cabeza) a 294.8 (cola). Incluso cuando las imágenes se superponen, la señal es más débil y ruidosa.

MegaDepth-X: Clean Data at Scale

MegaDepth-X: Datos Limpios a Escala

The chicken-and-egg problem of long-tail 3D is that you can’t get reliable ground truth from scenes that can’t be reconstructed. The paper’s insight is to take the well-reconstructed landmarks at the head of the distribution and simulate long-tail conditions by sampling sparse subsets from them, inheriting the ground truth from the full reconstruction.

El problema del huevo y la gallina de la cola larga en 3D es que no puedes obtener ground truth confiable de escenas que no pueden reconstruirse. La idea del paper es tomar los monumentos bien reconstruidos en la cabeza de la distribución y simular condiciones de cola larga muestreando subconjuntos dispersos de ellos, heredando el ground truth de la reconstrucción completa.

But this requires clean data at unprecedented scale. The authors build MegaDepth-X (MD-X) from MegaScenes, applying three critical cleanup stages:

Pero esto requiere datos limpios a una escala sin precedentes. Los autores construyen MegaDepth-X (MD-X) a partir de MegaScenes, aplicando tres etapas críticas de limpieza:

1. Filtering and disambiguation. Scenes dominated by crowds or moving objects are excluded. The default COLMAP SfM is replaced with MASt3R-SfM combined with Doppelganger classification to prune false matches from visually similar but geographically distant structures. Every remaining scene is manually verified against Google Maps and satellite imagery.

1. Filtrado y desambiguación. Se excluyen escenas dominadas por multitudes u objetos en movimiento. El COLMAP SfM predeterminado se reemplaza con MASt3R-SfM combinado con clasificación Doppelganger para eliminar falsas coincidencias de estructuras visualmente similares pero geográficamente distantes. Cada escena restante se verifica manualmente contra Google Maps e imágenes satelitales.

2. Dense depth refinement. Standard MVS depth maps from in-the-wild collections suffer from depth-bleeding and transient-object artifacts. The MegaDepth pipeline partially addresses this, but the authors add a novel monocular depth-guided filtering step using MoGe2 predictions as ordinal priors, discarding pixels where geometric and monocular depths disagree beyond a threshold. This removes bleeding artifacts without relying on manual category lists.

2. Refinamiento de profundidad densa. Los mapas de profundidad MVS estándar de colecciones in-the-wild sufren de artefactos de sangrado de profundidad y objetos transitorios. El pipeline de MegaDepth aborda esto parcialmente, pero los autores añaden un novedoso paso de filtrado guiado por profundidad monocular usando predicciones de MoGe2 como prioris ordinales, descartando píxeles donde las profundidades geométrica y monocular discrepan más allá de un umbral. Esto elimina artefactos de sangrado sin depender de listas de categorías manuales.

3. Statistics. From 2,474 candidate scenes with >100 registered images, 609 are filtered out. The final MD-X comprises 1,865 reconstructions totaling 440k images — 7× larger than the original MegaDepth. 127 scenes are held out for testing.

3. Estadísticas. De 2,474 escenas candidatas con >100 imágenes registradas, 609 se filtran. El MD-X final comprende 1,865 reconstrucciones totalizando 440k imágenes — 7× más grande que el MegaDepth original. 127 escenas se reservan para prueba.

Sparsity-Aware Sampling

Muestreo Consciente de la Escasez

The dataset alone isn’t enough — training batches need to mimic the camera distribution of real long-tail scenes. The authors design a structured sampling pipeline:

El dataset solo no es suficiente — los batches de entrenamiento necesitan imitar la distribución de cámaras de escenas reales de cola larga. Los autores diseñan un pipeline de muestreo estructurado:

Step 1 — Community Detection: The SfM view graph is partitioned using the Louvain algorithm to identify distinct viewpoint communities (e.g., front, side, interior views of a landmark).

Paso 1 — Detección de Comunidades: El grafo de vistas SfM se particiona usando el algoritmo Louvain para identificar comunidades de puntos de vista distintas (ej., vistas frontal, lateral, interior de un monumento).

Step 2 — Minimal Connectivity: For each training batch, one representative view is sampled per community. An approximate Steiner tree algorithm finds the minimal connected subgraph spanning all communities, preserving global consistency with the fewest possible nodes.

Paso 2 — Conectividad Mínima: Para cada batch de entrenamiento, se muestrea una vista representativa por comunidad. Un algoritmo de árbol de Steiner aproximado encuentra el subgrafo conectado mínimo que abarca todas las comunidades, preservando la consistencia global con la menor cantidad posible de nodos.

Step 3 — Greedy View Sampling: Inspired by skeletal sets, a greedy algorithm iteratively selects views that maximize community novelty and spatial distance. A search depth parameter D controls how far the search expands — higher D means wider baselines and sparser coverage.

Paso 3 — Muestreo Glotón de Vistas: Inspirado en conjuntos esqueléticos, un algoritmo glotón selecciona iterativamente vistas que maximizan la novedad de comunidad y la distancia espacial. Un parámetro de profundidad de búsqueda D controla cuánto se expande la búsqueda — D más alto significa líneas de base más amplias y cobertura más dispersa.

Four sampling strategies are compared: Dense (D=5, clustered), Sparse (D=24, long-tail emulation), Mixed (combination), and Random. The “Mixed” strategy — combining dense and sparse batches — proves most effective.

Se comparan cuatro estrategias de muestreo: Denso (D=5, agrupado), Disperso (D=24, emulación de cola larga), Mixto (combinación) y Aleatorio. La estrategia “Mixta” — combinando batches densos y dispersos — resulta ser la más efectiva.

Results

Resultados

The authors fine-tune two state-of-the-art 3D foundation models — π³ (permutation-equivariant) and VGGT (transformer-based) — on MD-X using the sparsity-aware sampling strategy. The results are evaluated on long-tail Internet scenes, doppelganger scenes, and standard benchmarks.

Los autores ajustan dos modelos fundacionales 3D del estado del arte — π³ (equivariante a permutaciones) y VGGT (basado en transformers) — en MD-X usando la estrategia de muestreo consciente de la escasez. Los resultados se evalúan en escenas de Internet de cola larga, escenas doppelganger y benchmarks estándar.

On real long-tail Internet photos, fine-tuned models produce significantly more consistent geometry where pretrained models fail entirely. On doppelganger scenes (symmetric/repetitive structures that confuse SfM), the improvements are equally dramatic — the model learns to disambiguate through exposure to diverse viewpoint distributions during training.

En fotografías reales de Internet de cola larga, los modelos ajustados producen geometría significativamente más consistente donde los modelos pre-entrenados fallan por completo. En escenas doppelganger (estructuras simétricas/repetitivas que confunden al SfM), las mejoras son igualmente dramáticas — el modelo aprende a desambiguar mediante exposición a distribuciones diversas de puntos de vista durante el entrenamiento.

Critically, the fine-tuned models preserve their performance on standard dense 3D benchmarks — the gains on the long tail don’t come at the cost of head performance. This is the hallmark of a genuine distributional improvement rather than a trade-off.

Críticamente, los modelos ajustados preservan su rendimiento en benchmarks 3D densos estándar — las ganancias en la cola larga no vienen a costa del rendimiento en la cabeza. Esta es la marca de una mejora distribucional genuina en lugar de un compromiso.

The “Mixed” sampling strategy consistently outperforms both purely dense and purely sparse approaches, suggesting that robust 3D perception requires exposure to both regimes. The “Dirty” variant (training on unfiltered data) shows that data quality matters — the filtering pipeline provides a significant boost over raw Internet reconstructions.

La estrategia de muestreo “Mixta” supera consistentemente tanto a los enfoques puramente densos como puramente dispersos, sugiriendo que la percepción 3D robusta requiere exposición a ambos regímenes. La variante “Dirty” (entrenando en datos sin filtrar) muestra que la calidad de los datos importa — el pipeline de filtrado proporciona un impulso significativo sobre las reconstrucciones crudas de Internet.

Why It Matters

Por Qué Importa

3D foundation models are converging on an architecture — feed-forward transformers processing arbitrary numbers of views — and scaling to larger training sets. But the distribution of training data matters as much as its volume. This paper makes a clean argument that the long tail of camera configurations, not just scene content, is the missing axis of diversity in current 3D training data.

Los modelos fundacionales 3D están convergiendo en una arquitectura — transformers feed-forward procesando números arbitrarios de vistas — y escalando a conjuntos de entrenamiento más grandes. Pero la distribución de los datos de entrenamiento importa tanto como su volumen. Este paper presenta un argumento limpio de que la cola larga de configuraciones de cámara, no solo el contenido de la escena, es el eje faltante de diversidad en los datos de entrenamiento 3D actuales.

The approach is elegant: rather than trying to extract ground truth from the long tail directly (which may be impossible), simulate it from the head. This is a general strategy that could apply to any domain where supervision is abundant in one regime and sparse in another — robotics, medical imaging, remote sensing.

El enfoque es elegante: en lugar de intentar extraer ground truth de la cola larga directamente (que puede ser imposible), simularla desde la cabeza. Esta es una estrategia general que podría aplicarse a cualquier dominio donde la supervisión es abundante en un régimen y escasa en otro — robótica, imagen médica, teledetección.

MegaDepth-X and the finetuned models are publicly available. For anyone working on 3D reconstruction from real-world imagery — not just curated benchmarks — this is the data and methodology the field has been missing.

MegaDepth-X y los modelos ajustados están disponibles públicamente. Para cualquiera que trabaje en reconstrucción 3D a partir de imágenes del mundo real — no solo benchmarks curados — estos son los datos y la metodología que le faltaban al campo.

References

Referencias

Li, Y., Xiangli, Y., Averbuch-Elor, H., Snavely, N., & Cai, R. (2026). Long-Tail Internet Photo Reconstruction. arXiv:2604.22714. arxiv.org/abs/2604.22714
Project page: megadepth-x.github.io
Related works: MegaDepth (Li & Snavely, 2018), MegaScenes (Tang et al., 2024), π³ (Wang et al., 2025), VGGT (Wang et al., 2025), DUSt3R (Wang et al., 2024), MASt3R (Leroy et al., 2024), MoGe2 (Wang et al., 2025), Doppelgangers (Cai et al., 2023)

Li, Y., Xiangli, Y., Averbuch-Elor, H., Snavely, N., & Cai, R. (2026). Long-Tail Internet Photo Reconstruction. arXiv:2604.22714. arxiv.org/abs/2604.22714
Página del proyecto: megadepth-x.github.io
Trabajos relacionados: MegaDepth (Li & Snavely, 2018), MegaScenes (Tang et al., 2024), π³ (Wang et al., 2025), VGGT (Wang et al., 2025), DUSt3R (Wang et al., 2024), MASt3R (Leroy et al., 2024), MoGe2 (Wang et al., 2025), Doppelgangers (Cai et al., 2023)