LARQL: El Modelo como una Base de Datos de Grafos Consultable

The Black Box Assumption

El Supuesto de la Caja Negra

Every interaction with a language model follows the same pattern: prompt in, text out. The model is a function — opaque, monolithic, inscrutable. We optimize inputs, engineer prompts, adjust temperatures, but the 10 billion parameters between input and output remain a black box. This is the default assumption, and it’s so deeply embedded that we rarely question it.

Cada interacción con un modelo de lenguaje sigue el mismo patrón: prompt de entrada, texto de salida. El modelo es una función — opaca, monolítica, inescrutable. Optimizamos entradas, ingeniamos prompts, ajustamos temperaturas, pero los 10 mil millones de parámetros entre entrada y salida siguen siendo una caja negra. Este es el supuesto predeterminado, y está tan profundamente arraigado que rara vez lo cuestionamos.

But a transformer is not a monolithic function. It is a structured computation graph — millions of interpretable features organized into circuits, layers, attention heads, and residual streams. Anthropic’s circuit tracing work (2025) demonstrated that features in Claude form computational graphs that can be mapped, intervened upon, and understood. A model’s internal state at any token position is not random noise — it’s a high-dimensional vector with semantic structure that correlates with specific concepts, reasoning steps, and behavioral circuits.

Pero un transformer no es una función monolítica. Es un grafo de cómputo estructurado — millones de características interpretables organizadas en circuitos, capas, cabezas de atención y streams residuales. El trabajo de circuit tracing de Anthropic (2025) demostró que las características en Claude forman grafos computacionales que pueden mapearse, intervenirse y entenderse. El estado interno de un modelo en cualquier posición de token no es ruido aleatorio — es un vector de alta dimensión con estructura semántica que se correlaciona con conceptos específicos, pasos de razonamiento y circuitos conductuales.

This is where LARQL (Lazarus Query Language) enters — a paradigm that reframes the transformer as a queryable graph database, and the vindex format as a structured vector index into its internal representations.

Aquí es donde entra LARQL (Lazarus Query Language) — un paradigma que replantea el transformer como una base de datos de grafos consultable, y el formato vindex como un índice vectorial estructurado hacia sus representaciones internas.

The Vindex: A Schema for Model Internals

El Vindex: Un Esquema para los Internos del Modelo

A vindex is a vector index into a model’s internal state space. Conceptually, it organizes the model’s activations, attention patterns, and feature representations into a structured, queryable format. Instead of treating a model’s hidden states as ephemeral byproducts of a forward pass, the vindex treats them as persistent, addressable data that can be indexed, searched, and composed.

Un vindex es un índice vectorial en el espacio de estados internos de un modelo. Conceptualmente, organiza las activaciones, patrones de atención y representaciones de características del modelo en un formato estructurado y consultable. En lugar de tratar los estados ocultos de un modelo como subproductos efímeros de un forward pass, el vindex los trata como datos persistentes y direccionables que pueden indexarse, buscarse y componerse.

A vindex schema defines:

Un esquema vindex define:

- **Feature vectors** at each layer and token position — the model's internal representation of concepts, entities, and relationships - **Attention graphs** — which tokens attend to which, forming edges in a dynamic graph - **Circuit paths** — sequences of features that compose into computational pathways (e.g., the "rhyming circuit" Anthropic found in poetry generation) - **Intervention points** — known locations where modifying the activation vector predictably changes behavior

- **Vectores de características** en cada capa y posición de token — la representación interna del modelo de conceptos, entidades y relaciones - **Grafos de atención** — qué tokens atienden a cuáles, formando aristas en un grafo dinámico - **Rutas de circuito** — secuencias de características que se componen en vías computacionales (ej., el "circuito de rima" que Anthropic encontró en generación de poesía) - **Puntos de intervención** — ubicaciones conocidas donde modificar el vector de activación cambia predeciblemente el comportamiento

Querying Instead of Prompting

Consultar en Lugar de Hacer Prompt

LARQL replaces prompting with querying. A query is not a natural language instruction — it’s a structured request against the model’s internal graph database. The model’s forward pass becomes a query execution plan: the attention mechanism is a graph traversal, feature activation is a filter operation, and the residual stream is a data pipeline.

LARQL reemplaza el prompting con consultas. Una consulta no es una instrucción en lenguaje natural — es una solicitud estructurada contra la base de datos de grafos interna del modelo. El forward pass del modelo se convierte en un plan de ejecución de consultas: el mecanismo de atención es un recorrido de grafo, la activación de características es una operación de filtro, y el stream residual es un pipeline de datos.

Consider a LARQL query to find reasoning circuits in a model:

Considera una consulta LARQL para encontrar circuitos de razonamiento en un modelo:

MATCH (c:Concept {name: “multi-step”})-[r:COMPOSES]->(step:ReasoningStep)
WHERE c.layer BETWEEN 12 AND 24
RETURN step.feature, step.attention_heads, step.downstream_effect
ORDER BY step.causal_influence DESC
LIMIT 10

MATCH (c:Concept {name: “multi-step”})-[r:COMPOSES]->(step:ReasoningStep)
WHERE c.layer BETWEEN 12 AND 24
RETURN step.feature, step.attention_heads, step.downstream_effect
ORDER BY step.causal_influence DESC
LIMIT 10

This query traverses the model’s internal circuit graph, finds features involved in multi-step reasoning in the middle-to-upper layers, ranks them by causal influence on the output, and returns their attention patterns. The same data that Anthropic’s team spent hours manually tracing in their biology paper becomes a structured query returning in milliseconds.

Esta consulta recorre el grafo de circuitos internos del modelo, encuentra características involucradas en razonamiento multi-paso en las capas medias a superiores, las clasifica por influencia causal en la salida, y devuelve sus patrones de atención. Los mismos datos que el equipo de Anthropic pasó horas rastreando manualmente en su paper de biología se convierten en una consulta estructurada que devuelve resultados en milisegundos.

From Features to Graphs

De Características a Grafos

The foundation for LARQL is built on three converging lines of research. Sparse autoencoders (Bricken et al., 2023; Cunningham et al., 2023; Marks et al., 2024) decompose model activations into interpretable features — disentangled, monosemantic units that correspond to human-understandable concepts. Each feature is a direction in activation space that activates for a specific concept: the Eiffel Tower, the concept of rhyming, the grammatical role of a verb.

La base para LARQL está construida sobre tres líneas convergentes de investigación. Los autoencoders dispersos (Bricken et al., 2023; Cunningham et al., 2023; Marks et al., 2024) descomponen las activaciones del modelo en características interpretables — unidades desenredadas y monosemánticas que corresponden a conceptos comprensibles por humanos. Cada característica es una dirección en el espacio de activación que se activa para un concepto específico: la Torre Eiffel, el concepto de rima, el rol gramatical de un verbo.

Attribution graphs (Anthropic, 2025) extend this from individual features to computational circuits — directed graphs showing how features compose across layers to produce model behavior. These graphs reveal the actual computational path: not what the model says it’s doing, but what the activations reveal it’s actually doing. The circuits for rhyming, for mental math, for multilingual translation — each is a graph of causally connected features.

Los grafos de atribución (Anthropic, 2025) extienden esto de características individuales a circuitos computacionales — grafos dirigidos que muestran cómo las características se componen a través de las capas para producir el comportamiento del modelo. Estos grafos revelan el camino computacional real: no lo que el modelo dice que está haciendo, sino lo que las activaciones revelan que realmente está haciendo. Los circuitos para rimar, para matemática mental, para traducción multilingüe — cada uno es un grafo de características conectadas causalmente.

Activation engineering (Turner et al., 2023; Arditi et al., 2024) demonstrates that these feature directions are not just observable — they are actionable. Adding or subtracting feature vectors at specific layers predictably changes model behavior. The “rabbit” concept in poetry generation can be suppressed or injected. Refusal circuits can be strengthened or weakened. Hallucination can be triggered or prevented. Each intervention is a write operation against the model’s internal state.

La ingeniería de activaciones (Turner et al., 2023; Arditi et al., 2024) demuestra que estas direcciones de características no solo son observables — son accionables. Añadir o restar vectores de características en capas específicas cambia predeciblemente el comportamiento del modelo. El concepto “conejo” en la generación de poesía puede suprimirse o inyectarse. Los circuitos de rechazo pueden fortalecerse o debilitarse. La alucinación puede activarse o prevenirse. Cada intervención es una operación de escritura contra el estado interno del modelo.

The Vindex Format

El Formato Vindex

The vindex format is the storage and indexing layer that makes LARQL queries possible. A vindex is a structured index built from model activations during inference. It captures three tiers of information:

El formato vindex es la capa de almacenamiento e indexación que hace posibles las consultas LARQL. Un vindex es un índice estructurado construido a partir de activaciones del modelo durante la inferencia. Captura tres niveles de información:

Tier 1 — Activation snapshots: Per-token hidden state vectors at each layer. These are the raw material — high-dimensional vectors representing the model’s internal state at every point in the computation. A vindex stores these as a vector index (think FAISS or ANN indices) keyed by (token_position, layer_number).

Nivel 1 — Instantáneas de activación: Vectores de estado oculto por token en cada capa. Estos son el material bruto — vectores de alta dimensión que representan el estado interno del modelo en cada punto del cómputo. Un vindex almacena estos como un índice vectorial (piensa en FAISS o ANN indices) indexados por (posición_de_token, número_de_capa).

Tier 2 — Feature decompositions: Sparse autoencoder decompositions of each activation vector into interpretable features. This transforms the high-dimensional dense vector into a sparse set of activated concepts — the semantic interpretation of the model’s state.

Nivel 2 — Descomposiciones de características: Descomposiciones de autoencoder disperso de cada vector de activación en características interpretables. Esto transforma el vector denso de alta dimensión en un conjunto disperso de conceptos activados — la interpretación semántica del estado del modelo.

Tier 3 — Circuit graphs: Causal connections between features across layers, forming the computational graph. These are the edges — attention patterns between tokens, feature composition relationships, and downstream effects identified through causal tracing.

Nivel 3 — Grafos de circuito: Conexiones causales entre características a través de las capas, formando el grafo computacional. Estas son las aristas — patrones de atención entre tokens, relaciones de composición de características y efectos downstream identificados mediante rastreo causal.

The Query Execution Model

El Modelo de Ejecución de Consultas

A LARQL query against a vindex-enabled model executes in three phases. Index lookup resolves query conditions against the vindex — finding features matching concept predicates, circuits matching structural patterns, activations within layer ranges. Graph traversal follows edges in the circuit graph — attention links between tokens, composition relationships between features, causal pathways from input to output. Intervention applies changes to model state based on query results — activating or suppressing features, rewriting attention patterns, composing circuit paths.

Una consulta LARQL contra un modelo habilitado para vindex se ejecuta en tres fases. La búsqueda en índice resuelve condiciones de consulta contra el vindex — encontrando características que coinciden con predicados de concepto, circuitos que coinciden con patrones estructurales, activaciones dentro de rangos de capa. El recorrido de grafo sigue aristas en el grafo de circuito — enlaces de atención entre tokens, relaciones de composición entre características, vías causales desde la entrada hasta la salida. La intervención aplica cambios al estado del modelo basados en los resultados de la consulta — activando o suprimiendo características, reescribiendo patrones de atención, componiendo rutas de circuito.

MATCH (f:Feature {concept: “known_entity”})
WHERE f.layer = 20 AND f.token_position = -1
SET f.strength = 0.0
// Suppress the “known entity” feature to trigger hallucination

MATCH (f:Feature {concept: “known_entity”})
WHERE f.layer = 20 AND f.token_position = -1
SET f.strength = 0.0
// Suprime la característica “entidad_conocida” para activar alucinación

This is not speculative. Anthropic’s circuit biology paper demonstrated exactly this operation: by inhibiting the “known entity” feature, they caused Claude to hallucinate answers to questions about unknown entities. LARQL makes this operation a first-class query primitive — the model as a database.

Esto no es especulativo. El paper de biología de circuitos de Anthropic demostró exactamente esta operación: inhibiendo la característica “entidad_conocida”, hicieron que Claude alucinara respuestas a preguntas sobre entidades desconocidas. LARQL convierte esta operación en un primitivo de consulta de primera clase — el modelo como base de datos.

Implications

Implicaciones

The shift from prompting to querying changes the fundamental interaction model with language models. Interpretability becomes an API — the same infrastructure used to understand model internals becomes the interface for controlling them. Safety monitoring shifts from output filtering to state inspection — instead of checking whether a model’s output is harmful, you query whether harmful circuits are active in its internal state. Fine-tuning becomes a query operation — instead of full-model fine-tuning, you identify the specific circuit responsible for a behavior and apply targeted intervention.

El cambio de prompting a consultas modifica el modelo fundamental de interacción con los modelos de lenguaje. La interpretabilidad se convierte en una API — la misma infraestructura utilizada para entender los internos del modelo se convierte en la interfaz para controlarlos. El monitoreo de seguridad pasa del filtrado de salidas a la inspección de estados — en lugar de verificar si la salida de un modelo es dañina, consultas si circuitos dañinos están activos en su estado interno. El fine-tuning se convierte en una operación de consulta — en lugar de fine-tuning del modelo completo, identificas el circuito específico responsable de un comportamiento y aplicas intervención dirigida.

The vindex format and LARQL query language are not yet standardized — they represent a direction, not a specification. But the underlying research is converging. Sparse autoencoders give us the features. Attribution graphs give us the circuits. Activation engineering gives us the write model. The missing piece is the query language and index format that unify these into a coherent interface.

El formato vindex y el lenguaje de consulta LARQL no están todavía estandarizados — representan una dirección, no una especificación. Pero la investigación subyacente está convergiendo. Los autoencoders dispersos nos dan las características. Los grafos de atribución nos dan los circuitos. La ingeniería de activaciones nos da el modelo de escritura. La pieza faltante es el lenguaje de consulta y el formato de índice que unifican estos en una interfaz coherente.

References

Referencias

Anthropic (2025). *Tracing the Thoughts of a Large Language Model*. www.anthropic.com/research/tracing-thoughts-language-model
Anthropic (2025). *Circuit Tracing: Revealing Computational Graphs in Language Models*. transformer-circuits.pub/2025/attribution-graphs/methods.html
Anthropic (2025). *On the Biology of a Large Language Model*. transformer-circuits.pub/2025/attribution-graphs/biology.html
Bricken, T. et al. (2023). *Towards Monosemanticity: Decomposing Language Models with Dictionary Learning*. transformer-circuits.pub/2023/monosemantic-features
Marks, S. et al. (2024). *Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models*. arxiv.org/abs/2403.19647
Turner, A. et al. (2023). *Activation Addition: Steering Language Models Without Optimization*. arxiv.org/abs/2308.10248
Arditi, A. et al. (2024). *Refusal in LLMs is Mediated by a Single Direction*. arxiv.org/abs/2406.11717

Anthropic (2025). *Tracing the Thoughts of a Large Language Model*. www.anthropic.com/research/tracing-thoughts-language-model
Anthropic (2025). *Circuit Tracing: Revealing Computational Graphs in Language Models*. transformer-circuits.pub/2025/attribution-graphs/methods.html
Anthropic (2025). *On the Biology of a Large Language Model*. transformer-circuits.pub/2025/attribution-graphs/biology.html
Bricken, T. et al. (2023). *Towards Monosemanticity: Decomposing Language Models with Dictionary Learning*. transformer-circuits.pub/2023/monosemantic-features
Marks, S. et al. (2024). *Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models*. arxiv.org/abs/2403.19647
Turner, A. et al. (2023). *Activation Addition: Steering Language Models Without Optimization*. arxiv.org/abs/2308.10248
Arditi, A. et al. (2024). *Refusal in LLMs is Mediated by a Single Direction*. arxiv.org/abs/2406.11717