Factores de Yamanaka e IA: Una Revolución en la Reprogramación Celular

In 2006, Shinya Yamanaka identified four transcription factors—Oct4, Sox2, Klf4, and c-Myc—capable of reverting differentiated somatic cells to a pluripotent state. The discovery earned him the 2012 Nobel Prize and inaugurated an entirely new field: cellular reprogramming. For ML engineers, this is not just biology. Cells are computational systems. Gene regulatory networks (GRNs) execute programs, transcription factors are control signals, and cell states live on a high-dimensional manifold that can be navigated with the right inputs.

En 2006, Shinya Yamanaka identificó cuatro factores de transcripción—Oct4, Sox2, Klf4 y c-Myc—capaces de revertir células somáticas diferenciadas a un estado pluripotente. El descubrimiento le valió el Premio Nobel de 2012 e inauguró un campo completamente nuevo: la reprogramación celular. Para ingenieros de ML, esto no es solo biología. Las células son sistemas computacionales. Las redes de regulación génica (GRNs) ejecutan programas, los factores de transcripción son señales de control, y los estados celulares habitan en una variedad de alta dimensión que puede navegarse con las entradas correctas.

What makes this convergence timely is the arrival of foundation models for single-cell biology. Transformer architectures trained on tens of millions of cells can now predict perturbation outcomes, infer gene regulatory networks, and—most strikingly—design novel transcription factor variants that outperform natural proteins. The OpenAI and Retro Biosciences collaboration demonstrated exactly this in 2025: an LLM engineered Yamanaka factor variants achieving >50-fold improvement in pluripotency marker expression.

Lo que hace oportuna esta convergencia es la llegada de los modelos fundación para biología de célula única. Arquitecturas transformer entrenadas en decenas de millones de células ahora pueden predecir resultados de perturbaciones, inferir redes de regulación génica y—lo más impactante—diseñar variantes novedosas de factores de transcripción que superan a las proteínas naturales. La colaboración entre OpenAI y Retro Biosciences demostró exactamente esto en 2025: un LLM diseñó variantes de factores de Yamanaka logrando >50 veces de mejora en la expresión de marcadores de pluripotencia.

The OSKM Mechanism

El Mecanismo OSKM

The four Yamanaka factors—collectively abbreviated OSKM—form a precisely orchestrated gene regulatory program. Oct4 (encoded by POU5F1) is the master pluripotency regulator, binding enhancers at thousands of genomic loci to activate the pluripotency network while silencing differentiation genes. Sox2 cooperates with Oct4 through composite DNA elements, forming heterodimers that drive expression of Nanog and other core pluripotency genes. Klf4 modulates cell cycle progression and epithelial-mesenchymal transition, acting as the bridge between the differentiated and pluripotent states.

Los cuatro factores de Yamanaka—colectivamente abreviados OSKM—forman un programa de regulación génica precisamente orquestado. Oct4 (codificado por POU5F1) es el regulador maestro de pluripotencia, uniéndose a enhancers en miles de loci genómicos para activar la red de pluripotencia mientras silencia genes de diferenciación. Sox2 coopera con Oct4 a través de elementos de ADN compuestos, formando heterodímeros que impulsan la expresión de Nanog y otros genes centrales de pluripotencia. Klf4 modula la progresión del ciclo celular y la transición epitelial-mesenquimal, actuando como puente entre los estados diferenciado y pluripotente.

c-Myc is the accelerant—and the danger. It globally opens chromatin by recruiting histone acetyltransferases, making previously inaccessible genomic regions available for Oct4 and Sox2 binding. Without c-Myc, reprogramming is roughly 10× slower. But c-Myc is also a potent proto-oncogene, dysregulated in approximately 70% of human cancers. This creates the central tension in the field: you need c-Myc for efficiency, but its presence raises tumorigenicity risk.

c-Myc es el acelerante—y el peligro. Abre la cromatina globalmente reclutando histona acetiltransferasas, haciendo accesibles regiones genómicas previamente cerradas para la unión de Oct4 y Sox2. Sin c-Myc, la reprogramación es aproximadamente 10× más lenta. Pero c-Myc es también un potente protooncogén, desregulado en aproximadamente el 70% de los cánceres humanos. Esto crea la tensión central del campo: necesitas c-Myc para eficiencia, pero su presencia eleva el riesgo de tumorigenicidad.

A critical distinction has emerged in recent years: full reprogramming versus partial reprogramming. Full reprogramming drives cells all the way to induced pluripotent stem cells (iPSCs), erasing cellular identity completely. Partial reprogramming applies OSKM transiently—long enough to reset the epigenetic clock but not so long that cells lose their differentiated identity. Researchers at the Salk Institute identified a ~13-day “sweet spot” for cyclic OSKM expression that reverses epigenetic age by approximately 30 years in human cells without triggering dedifferentiation.

Una distinción crítica ha emergido en años recientes: reprogramación completa versus reprogramación parcial. La reprogramación completa lleva a las células hasta células madre pluripotentes inducidas (iPSCs), borrando la identidad celular por completo. La reprogramación parcial aplica OSKM de forma transitoria—suficiente para reiniciar el reloj epigenético pero no tanto como para que las células pierdan su identidad diferenciada. Investigadores del Salk Institute identificaron un “punto óptimo” de ~13 días para la expresión cíclica de OSKM que revierte la edad epigenética en aproximadamente 30 años en células humanas sin desencadenar desdiferenciación.

Foundation Models for Cell Biology

Modelos Fundación para Biología Celular

The parallel between NLP and single-cell genomics is precise: genes are tokens, cells are documents, and expression levels are embeddings. A single-cell RNA sequencing experiment produces a matrix of ~20,000 genes × millions of cells. This is a corpus amenable to the same transformer architectures that process language—just with a different token vocabulary and positional encoding scheme.

El paralelo entre NLP y genómica de célula única es preciso: los genes son tokens, las células son documentos, y los niveles de expresión son embeddings. Un experimento de secuenciación de ARN de célula única produce una matriz de ~20,000 genes × millones de células. Este es un corpus susceptible a las mismas arquitecturas transformer que procesan lenguaje—solo con un vocabulario de tokens y esquema de codificación posicional diferente.

scGPT (Cui et al., Nature Methods, 2024) is the GPT of single-cell biology. Trained on 33 million cells across 36 organs, this transformer learns gene-gene interaction patterns through a generative pretraining objective adapted from language modeling. Beyond embedding cells, scGPT supports perturbation prediction (forecasting how a cell will respond to a genetic knockdown), gene regulatory network inference, and multi-omic integration. The model architecture uses gene tokens with expression-bin embeddings, processing each cell as a variable-length sequence.

scGPT (Cui et al., Nature Methods, 2024) es el GPT de la biología de célula única. Entrenado en 33 millones de células a través de 36 órganos, este transformer aprende patrones de interacción gen-gen mediante un objetivo de preentrenamiento generativo adaptado del modelado de lenguaje. Más allá de embeber células, scGPT soporta predicción de perturbaciones (pronosticando cómo responderá una célula a un knockdown genético), inferencia de redes de regulación génica e integración multi-ómica. La arquitectura del modelo usa tokens de genes con embeddings de bins de expresión, procesando cada célula como una secuencia de longitud variable.

Geneformer (Theodoris et al., 2023) takes a BERT-style approach with a critical innovation: rank-value encoding. Instead of raw expression counts, Geneformer ranks each gene’s expression within its cell context, making the representation robust to batch effects and technical noise. Geneformer V2 trained on 104 million cells and demonstrated utility in identifying therapeutic targets for cardiomyopathy by navigating the gene network to find dose-sensitive nodes.

Geneformer (Theodoris et al., 2023) adopta un enfoque estilo BERT con una innovación crítica: codificación de valores de ranking. En lugar de conteos brutos de expresión, Geneformer clasifica la expresión de cada gen dentro del contexto de su célula, haciendo la representación robusta a efectos de batch y ruido técnico. Geneformer V2 fue entrenado en 104 millones de células y demostró utilidad en la identificación de blancos terapéuticos para cardiomiopatía navegando la red génica para encontrar nodos sensibles a dosis.

scBERT (Yang et al., 2022) applies a bidirectional encoder to the cell type annotation problem, framing it as a masked token prediction task over gene expression profiles. The key architectural choice: each gene gets a learnable embedding, and the model learns contextual representations that capture cell-type-specific expression patterns without requiring labeled training data.

scBERT (Yang et al., 2022) aplica un encoder bidireccional al problema de anotación de tipo celular, enmarcándolo como una tarea de predicción de tokens enmascarados sobre perfiles de expresión génica. La elección arquitectónica clave: cada gen recibe un embedding aprendible, y el modelo aprende representaciones contextuales que capturan patrones de expresión específicos de tipo celular sin requerir datos de entrenamiento etiquetados.

AI-Designed Yamanaka Factors

Factores de Yamanaka Diseñados por IA

The most consequential result at the intersection of AI and reprogramming comes from OpenAI and Retro Biosciences (2025). They developed GPT-4b micro, a protein-engineering LLM fine-tuned to design novel variants of the Yamanaka factors. This is not incremental optimization. The model generated variants of Sox2 and Klf4—dubbed “RetroSOX” and “RetroKLF”—that achieved a >50-fold increase in expression of CD44, a key pluripotency marker, compared to the wild-type proteins.

El resultado más trascendental en la intersección de IA y reprogramación proviene de OpenAI y Retro Biosciences (2025). Desarrollaron GPT-4b micro, un LLM de ingeniería de proteínas fine-tuneado para diseñar variantes novedosas de los factores de Yamanaka. Esto no es optimización incremental. El modelo generó variantes de Sox2 y Klf4—denominadas “RetroSOX” y “RetroKLF”—que lograron un incremento de >50 veces en la expresión de CD44, un marcador clave de pluripotencia, comparado con las proteínas de tipo silvestre.

The hit rate is staggering. Over 30% of AI-generated variants outperformed their natural counterparts in functional assays. For context, directed evolution campaigns in protein engineering typically achieve hit rates of 0.1–1%. The model achieved this by learning the mapping between amino acid sequence, protein structure, and downstream transcriptional activity—a mapping that is essentially inaccessible to human intuition when dealing with proteins where a single substitution can shift the entire folding landscape.

La tasa de éxito es asombrosa. Más del 30% de las variantes generadas por IA superaron a sus contrapartes naturales en ensayos funcionales. Para contexto, las campañas de evolución dirigida en ingeniería de proteínas típicamente logran tasas de éxito de 0.1–1%. El modelo logró esto aprendiendo el mapeo entre secuencia de aminoácidos, estructura proteica y actividad transcripcional posterior—un mapeo esencialmente inaccesible a la intuición humana cuando se trata de proteínas donde una sola sustitución puede alterar todo el panorama de plegamiento.

This result reframes the reprogramming problem entirely. Instead of searching for small molecules that can substitute for Yamanaka factors—a pharmacological approach that has yielded partial results—AI can directly engineer superior versions of the factors themselves. The bottleneck shifts from “can we find something that works?” to “can we predict which sequence modifications improve function?” The latter is a machine learning problem, and GPT-4b micro demonstrated it is solvable at scale.

Este resultado reformula completamente el problema de la reprogramación. En lugar de buscar pequeñas moléculas que sustituyan a los factores de Yamanaka—un enfoque farmacológico que ha producido resultados parciales—la IA puede diseñar directamente versiones superiores de los factores mismos. El cuello de botella pasa de “¿podemos encontrar algo que funcione?” a “¿podemos predecir qué modificaciones de secuencia mejoran la función?”. Lo último es un problema de aprendizaje automático, y GPT-4b micro demostró que es resoluble a escala.

Deep RL for Gene Regulatory Networks

Deep RL para Redes de Regulación Génica

If foundation models learn the correlational structure of cell states, deep reinforcement learning tackles the causal control problem: given a GRN modeled as a dynamical system, what sequence of perturbations drives the network from a disease state to a healthy attractor? This is formally equivalent to controlling a Markov decision process where the state space is the expression profile and the action space is the set of possible transcription factor interventions.

Si los modelos fundación aprenden la estructura correlacional de los estados celulares, el deep reinforcement learning aborda el problema de control causal: dada una GRN modelada como un sistema dinámico, ¿qué secuencia de perturbaciones conduce la red desde un estado de enfermedad a un atractor saludable? Esto es formalmente equivalente a controlar un proceso de decisión de Markov donde el espacio de estados es el perfil de expresión y el espacio de acciones es el conjunto de posibles intervenciones con factores de transcripción.

GATTACA (arXiv:2505.02712) frames GRN control as a graph neural network-based RL problem. The gene regulatory network is represented as a graph where nodes are genes and edges represent regulatory interactions. The agent learns a policy over this graph structure, choosing which genes to perturb at each step to steer the Boolean network dynamics toward a target attractor state. The GNN architecture captures the local regulatory neighborhood of each gene, enabling generalization to unseen network topologies.

GATTACA (arXiv:2505.02712) enmarca el control de GRNs como un problema de RL basado en redes neuronales de grafos. La red de regulación génica se representa como un grafo donde los nodos son genes y las aristas representan interacciones regulatorias. El agente aprende una política sobre esta estructura de grafo, eligiendo qué genes perturbar en cada paso para dirigir la dinámica de la red booleana hacia un estado atractor objetivo. La arquitectura GNN captura el vecindario regulador local de cada gen, permitiendo generalización a topologías de red no vistas.

pbn-STAC (arXiv:2402.08491) addresses a more general setting: Probabilistic Boolean Networks (PBNs), where the transition function at each node is selected stochastically from a set of candidate functions. This stochasticity models the inherent noise in gene expression. The authors use deep RL to learn robust control policies that achieve attractor stabilization despite transition uncertainty—analogous to training policies that are robust to environment stochasticity in robotics.

pbn-STAC (arXiv:2402.08491) aborda un escenario más general: Redes Booleanas Probabilísticas (PBNs), donde la función de transición en cada nodo se selecciona estocásticamente de un conjunto de funciones candidatas. Esta estocasticidad modela el ruido inherente en la expresión génica. Los autores usan deep RL para aprender políticas de control robustas que logran estabilización de atractores a pesar de la incertidumbre en las transiciones—análogo a entrenar políticas robustas a la estocasticidad del entorno en robótica.

CellFluxRL (arXiv:2603.21743) pushes further by integrating biologically constrained virtual cell models with RL. Rather than abstracting GRNs into Boolean networks, CellFluxRL works with continuous ODE-based models that respect known biochemical constraints (mass action kinetics, Michaelis-Menten dynamics). The RL agent plans intervention trajectories through this continuous state space, optimizing for target cell state achievement while minimizing perturbation magnitude.

CellFluxRL (arXiv:2603.21743) avanza más integrando modelos de célula virtual biológicamente restringidos con RL. En lugar de abstraer las GRNs en redes booleanas, CellFluxRL trabaja con modelos continuos basados en EDOs que respetan restricciones bioquímicas conocidas (cinética de acción de masas, dinámica de Michaelis-Menten). El agente de RL planifica trayectorias de intervención a través de este espacio de estados continuo, optimizando el logro del estado celular objetivo mientras minimiza la magnitud de la perturbación.

Partial Reprogramming and Longevity

Reprogramación Parcial y Longevidad

The translational frontier of reprogramming is age reversal. Altos Labs, launched in 2022 with a $3 billion investment from Jeff Bezos and Yuri Milner, began human safety testing for partial reprogramming therapies in August 2025. The company’s approach builds directly on the cyclic OSKM expression protocol from the Salk Institute, using inducible polycistronic constructs to transiently express the Yamanaka factors in vivo.

La frontera translacional de la reprogramación es la reversión de la edad. Altos Labs, fundada en 2022 con una inversión de $3 mil millones de Jeff Bezos y Yuri Milner, inició pruebas de seguridad humana para terapias de reprogramación parcial en agosto de 2025. El enfoque de la empresa se construye directamente sobre el protocolo de expresión cíclica de OSKM del Salk Institute, usando construcciones policistrónicas inducibles para expresar transitoriamente los factores de Yamanaka in vivo.

Life Biosciences achieved a landmark in January 2026: the first FDA-cleared IND for a partial reprogramming therapy. Their lead compound, ER-100, uses the OSK cocktail (OSKM minus c-Myc) to avoid the oncogenic risk associated with c-Myc expression. The Phase 1 trial targets epigenetic age reduction in specific tissues, using Horvath’s epigenetic clock and GrimAge as primary biomarkers. This is the first human trial of a reprogramming-based therapeutic.

Life Biosciences alcanzó un hito en enero de 2026: la primera IND aprobada por la FDA para una terapia de reprogramación parcial. Su compuesto líder, ER-100, usa el cóctel OSK (OSKM sin c-Myc) para evitar el riesgo oncogénico asociado con la expresión de c-Myc. El ensayo de Fase 1 tiene como objetivo la reducción de la edad epigenética en tejidos específicos, usando el reloj epigenético de Horvath y GrimAge como biomarcadores primarios. Este es el primer ensayo humano de una terapéutica basada en reprogramación.

The evaluation framework relies heavily on epigenetic clocks—statistical models trained on DNA methylation patterns that predict biological age with high accuracy. The Horvath clock uses 353 CpG sites and achieves a median error of ~3.6 years across tissues. GrimAge incorporates surrogate biomarkers (plasma proteins, smoking pack-years) and is a stronger predictor of lifespan and healthspan than chronological age alone. These clocks serve as the objective functions for reprogramming optimization—both in vivo and computationally.

El marco de evaluación depende fuertemente de los relojes epigenéticos—modelos estadísticos entrenados en patrones de metilación del ADN que predicen la edad biológica con alta precisión. El reloj de Horvath usa 353 sitios CpG y logra un error mediano de ~3.6 años a través de tejidos. GrimAge incorpora biomarcadores sustitutos (proteínas plasmáticas, paquetes-año de tabaquismo) y es un predictor más fuerte de esperanza de vida y saludspan que la edad cronológica sola. Estos relojes sirven como funciones objetivo para la optimización de la reprogramación—tanto in vivo como computacionalmente.

An alternative to genetic reprogramming is partial chemical reprogramming: using small molecules instead of transcription factor genes. Ocampo et al. demonstrated that a combination of tranylcypromine (an LSD1 inhibitor that modulates H3K4 methylation) and RepSox (a TGF-β inhibitor) can achieve partial epigenetic rejuvenation without any genetic modification. Chemical approaches avoid the delivery challenges of gene therapy, though their efficiency remains lower than OSKM-based methods.

Una alternativa a la reprogramación genética es la reprogramación química parcial: usar pequeñas moléculas en lugar de genes de factores de transcripción. Ocampo et al. demostraron que una combinación de tranilcipromina (un inhibidor de LSD1 que modula la metilación H3K4) y RepSox (un inhibidor de TGF-β) puede lograr rejuvenecimiento epigenético parcial sin ninguna modificación genética. Los enfoques químicos evitan los desafíos de entrega de la terapia génica, aunque su eficiencia sigue siendo menor que los métodos basados en OSKM.

The Agentic Parallel

El Paralelo Agéntico

For ML engineers building agentic systems, the mapping from cellular computation to agent architectures is strikingly direct. Transcription factors are system prompts: they define which regulatory programs are active and constrain the space of reachable cell states. GRNs are tool schemas: they encode the causal structure of which genes regulate which other genes, defining the action space for interventions. The cell state manifold is a world model: cells traverse a high-dimensional landscape of gene expression, and the geometry of this landscape determines which transitions are possible.

Para ingenieros de ML construyendo sistemas agénticos, el mapeo de la computación celular a las arquitecturas de agentes es sorprendentemente directo. Los factores de transcripción son system prompts: definen qué programas regulatorios están activos y restringen el espacio de estados celulares alcanzables. Las GRNs son esquemas de herramientas: codifican la estructura causal de qué genes regulan a qué otros genes, definiendo el espacio de acciones para intervenciones. La variedad de estados celulares es un world model: las células recorren un paisaje de alta dimensión de expresión génica, y la geometría de este paisaje determina qué transiciones son posibles.

Self-driving labs for biology are autonomous agents with tools: they formulate hypotheses (planning), design genetic perturbations (action), execute experiments via robotic liquid handlers (tool use), and update their model of cell behavior based on readouts (observation). The loop is identical to an agent calling APIs in a software environment, except the API is a cell culture and the response is a flow cytometry measurement.

Los laboratorios autónomos para biología son agentes autónomos con herramientas: formulan hipótesis (planificación), diseñan perturbaciones genéticas (acción), ejecutan experimentos mediante manipuladores robóticos de líquidos (uso de herramientas), y actualizan su modelo del comportamiento celular basándose en lecturas (observación). El bucle es idéntico a un agente llamando APIs en un entorno de software, excepto que la API es un cultivo celular y la respuesta es una medición de citometría de flujo.

The critical limitation of current foundation models in this framework: they capture correlation, not causation. A recent sparse autoencoder (SAE) analysis of scGPT’s internal representations found that only ~6.2% of learned features showed perturbation-specific responses. The model can interpolate between observed cell states beautifully, but it cannot reliably predict the outcome of an intervention it has never seen—a fundamental gap for any agent that needs to plan action sequences in novel situations.

La limitación crítica de los modelos fundación actuales en este marco: capturan correlación, no causalidad. Un análisis reciente con sparse autoencoders (SAE) de las representaciones internas de scGPT encontró que solo ~6.2% de las features aprendidas mostraron respuestas específicas a perturbaciones. El modelo puede interpolar entre estados celulares observados bellamente, pero no puede predecir confiablemente el resultado de una intervención que nunca ha visto—una brecha fundamental para cualquier agente que necesite planificar secuencias de acciones en situaciones novedosas.

The path forward requires perturbation-aware training objectives. Instead of learning only from observational single-cell atlases, models need to be trained on perturbation datasets (CRISPR screens, overexpression libraries, drug response profiles) that expose causal structure. Combined with closed-loop reprogramming systems—where an RL agent continuously adjusts TF expression levels based on real-time epigenetic clock readouts—this could enable truly autonomous cellular engineering.

El camino a seguir requiere objetivos de entrenamiento conscientes de perturbaciones. En lugar de aprender solo de atlas observacionales de célula única, los modelos necesitan ser entrenados en datasets de perturbaciones (pantallas CRISPR, librerías de sobreexpresión, perfiles de respuesta a fármacos) que expongan la estructura causal. Combinado con sistemas de reprogramación de bucle cerrado—donde un agente de RL ajusta continuamente los niveles de expresión de TFs basándose en lecturas en tiempo real de relojes epigenéticos—esto podría habilitar la ingeniería celular verdaderamente autónoma.

Challenges

Desafíos

Tumorigenicity remains the dominant safety concern. c-Myc is expressed in ~70% of human cancers and drives uncontrolled proliferation when constitutively activated. Even partial reprogramming with OSKM carries risk: transient c-Myc expression can leave epigenetic scars that predispose cells to oncogenic transformation. The field has responded with c-Myc-free protocols (OSK alone), L-Myc substitution (L-Myc promotes reprogramming without the same oncogenic potency), and genetic safety switches (inducible caspase systems that can eliminate reprogrammed cells if they begin proliferating abnormally).

La tumorigenicidad sigue siendo la preocupación de seguridad dominante. c-Myc se expresa en ~70% de los cánceres humanos e impulsa la proliferación incontrolada cuando se activa constitutivamente. Incluso la reprogramación parcial con OSKM conlleva riesgo: la expresión transitoria de c-Myc puede dejar cicatrices epigenéticas que predisponen a las células a la transformación oncogénica. El campo ha respondido con protocolos sin c-Myc (solo OSK), sustitución con L-Myc (L-Myc promueve la reprogramación sin la misma potencia oncogénica) e interruptores de seguridad genéticos (sistemas de caspasa inducible que pueden eliminar células reprogramadas si comienzan a proliferar anormalmente).

The computational side faces its own challenges. There is no standardized benchmarking framework for perturbation prediction models. Different papers evaluate on different datasets, different cell types, and different metrics (Pearson correlation, RMSE, direction accuracy), making it nearly impossible to compare methods fairly. The field needs something analogous to GLUE or HELM for single-cell AI—an agreed-upon suite of perturbation prediction tasks with standardized evaluation protocols.

El lado computacional enfrenta sus propios desafíos. No existe un marco estandarizado de benchmarking para modelos de predicción de perturbaciones. Diferentes papers evalúan en diferentes datasets, tipos celulares y métricas (correlación de Pearson, RMSE, precisión direccional), haciendo casi imposible comparar métodos de manera justa. El campo necesita algo análogo a GLUE o HELM para IA de célula única—un conjunto acordado de tareas de predicción de perturbaciones con protocolos de evaluación estandarizados.

Epigenetic clock reliability during reprogramming is an unresolved methodological issue. Standard clocks like Horvath’s were trained on normal aging trajectories, not on cells undergoing forced epigenetic remodeling. During reprogramming, methylation patterns change rapidly and non-monotonically—a cell may briefly appear “younger” by one clock metric while actually being in a transitional, unstable state. Developing reprogramming-specific epigenetic clocks that distinguish genuine rejuvenation from transient epigenetic noise is an open problem.

La fiabilidad de los relojes epigenéticos durante la reprogramación es un problema metodológico sin resolver. Los relojes estándar como el de Horvath fueron entrenados en trayectorias normales de envejecimiento, no en células sometidas a remodelación epigenética forzada. Durante la reprogramación, los patrones de metilación cambian rápida y no monótonamente—una célula puede parecer brevemente “más joven” por una métrica de reloj mientras realmente está en un estado transicional e inestable. Desarrollar relojes epigenéticos específicos para reprogramación que distingan el rejuvenecimiento genuino del ruido epigenético transitorio es un problema abierto.

The convergence of foundation models, deep RL, and cellular reprogramming is creating a new discipline—computational reprogramming engineering—where the design space is the genome, the objective function is epigenetic age, and the optimizer is an AI system that learns to navigate the cell state manifold. The OpenAI-Retro result proved that AI can design better biological tools than evolution. The next five years will determine whether AI can orchestrate those tools into safe, effective therapeutic protocols.

La convergencia de modelos fundación, deep RL y reprogramación celular está creando una nueva disciplina—ingeniería computacional de reprogramación—donde el espacio de diseño es el genoma, la función objetivo es la edad epigenética, y el optimizador es un sistema de IA que aprende a navegar la variedad de estados celulares. El resultado OpenAI-Retro demostró que la IA puede diseñar mejores herramientas biológicas que la evolución. Los próximos cinco años determinarán si la IA puede orquestar esas herramientas en protocolos terapéuticos seguros y efectivos.

References

Referencias

Takahashi, K. & Yamanaka, S. (2006). *Induction of Pluripotent Stem Cells from Mouse Embryonic and Adult Fibroblast Cultures by Defined Factors*. Cell 126, 663–676.
Cui, H., Wang, C., Maan, H., Pang, K., Luo, F., Duan, N., & Wang, B. (2024). scGPT: toward building a foundation model for single-cell multi-omics using generative AI. *Nature Methods*, 21, 1470–1480.
Theodoris, C. V., Xiao, L., Chopra, A., Chaffin, M. D., Al Sayed, Z. R., Hill, M. C., Mantineo, H., Brydon, E. M., Zeng, Z., Liu, X. S., & Ellinor, P. T. (2023). Transfer learning enables predictions in network biology. *Nature*, 618, 616–624.
Yang, F., Wang, W., Wang, F., Fang, Y., Tang, D., Huang, J., Lu, H., & Chen, J. (2022). scBERT as a large-scale pretrained deep language model for cell type annotation of single-cell RNA-seq data. *Nature Machine Intelligence*, 4, 852–866.
Retro Biosciences & OpenAI (2025). GPT-4b micro: Protein engineering for Yamanaka factor optimization. *Company report / preprint*.
Bugrov, A., Marinković, D., & Tadić, B. (2025). GATTACA: Reinforcement Learning for Controlling Gene Regulatory Networks via Graph Neural Networks. *arxiv.org/abs/2505.02712*.
Shukla, A., & Serra, E. (2024). pbn-STAC: Deep RL for Attractor Control in Probabilistic Boolean Networks. *arxiv.org/abs/2402.08491*.
Ocampo, A., Reddy, P., Martinez-Redondo, P., Platero-Luengo, A., Hatanaka, F., Hishida, T., Li, M., Lam, D., Kurita, M., Beyret, E., Araoka, T., Vazquez-Ferrer, E., Donoso, D., Roman, J. S., Xu, J., Rodriguez, C., Nunez Delicado, G., Nunez, J. M., Guillen, C., ... & Belmonte, J. C. I. (2016). In Vivo Amelioration of Age-Associated Hallmarks by Partial Reprogramming. *Cell*, 167(7), 1719–1733.
Horvath, S. (2013). DNA methylation age of human tissues and cell types. *Genome Biology*, 14(10), R115.
Lu, A. T., Quach, A., Wilson, J. G., Reiner, A. P., Aviv, A., Raj, K., & Horvath, S. (2019). DNA methylation GrimAge strongly predicts lifespan and healthspan. *Aging*, 11(2), 303–327.
Chi, Y., Bhatt, R., Ma, H., Wu, L., Zhang, S., & Guan, Y. (2025). Foundation models for single-cell multi-omics: a review. *Nature Reviews Genetics*.

Takahashi, K. & Yamanaka, S. (2006). *Inducción de Células Madre Pluripotentes a partir de Cultivos de Fibroblastos Embrionarios y Adultos de Ratón mediante Factores Definidos*. Cell 126, 663–676.
Cui, H., Wang, C., Maan, H., Pang, K., Luo, F., Duan, N., & Wang, B. (2024). scGPT: hacia la construcción de un modelo fundación para multiómica de célula única usando IA generativa. *Nature Methods*, 21, 1470–1480.
Theodoris, C. V., Xiao, L., Chopra, A., Chaffin, M. D., Al Sayed, Z. R., Hill, M. C., Mantineo, H., Brydon, E. M., Zeng, Z., Liu, X. S., & Ellinor, P. T. (2023). El transfer learning permite predicciones en biología de redes. *Nature*, 618, 616–624.
Yang, F., Wang, W., Wang, F., Fang, Y., Tang, D., Huang, J., Lu, H., & Chen, J. (2022). scBERT como modelo de lenguaje profundo preentrenado a gran escala para anotación de tipos celulares en datos de RNA-seq de célula única. *Nature Machine Intelligence*, 4, 852–866.
Retro Biosciences & OpenAI (2025). GPT-4b micro: Ingeniería de proteínas para la optimización de factores de Yamanaka. *Reporte de empresa / preprint*.
Bugrov, A., Marinković, D., & Tadić, B. (2025). GATTACA: Aprendizaje por Refuerzo para el Control de Redes de Regulación Génica mediante Redes Neuronales de Grafos. *arxiv.org/abs/2505.02712*.
Shukla, A., & Serra, E. (2024). pbn-STAC: Deep RL para Control de Atractores en Redes Booleanas Probabilísticas. *arxiv.org/abs/2402.08491*.
Ocampo, A., Reddy, P., Martinez-Redondo, P., Platero-Luengo, A., Hatanaka, F., Hishida, T., Li, M., Lam, D., Kurita, M., Beyret, E., Araoka, T., Vazquez-Ferrer, E., Donoso, D., Roman, J. S., Xu, J., Rodriguez, C., Nunez Delicado, G., Nunez, J. M., Guillen, C., ... & Belmonte, J. C. I. (2016). Mejora In Vivo de Marcadores Asociados a la Edad mediante Reprogramación Parcial. *Cell*, 167(7), 1719–1733.
Horvath, S. (2013). Edad de metilación del ADN en tejidos y tipos celulares humanos. *Genome Biology*, 14(10), R115.
Lu, A. T., Quach, A., Wilson, J. G., Reiner, A. P., Aviv, A., Raj, K., & Horvath, S. (2019). GrimAge de metilación del ADN predice fuertemente la esperanza de vida y el healthspan. *Aging*, 11(2), 303–327.
Chi, Y., Bhatt, R., Ma, H., Wu, L., Zhang, S., & Guan, Y. (2025). Modelos fundación para multiómica de célula única: una revisión. *Nature Reviews Genetics*.