SU NOMBRE: EVO 2

Una IA entrenada con 128 000 especies permite diseñar genomas o predecir enfermedades

El modelo Evo 2, publicado esta semana en la revista Nature, es capaz de leer y escribir el código genético de todos los dominios de la vida con una precisión superior al 90 % en la detección de mutaciones patogénicas. Es el último de un grupo de modelos que han hecho avanzar el campo de la genética generativa.

ilustración Evo2
Ilustración del nuevo modelo genético Evo2. / Arc Institute

Un equipo internacional de científicos del Instituto Arc y NVIDIA, en colaboración con las universidades de Stanford, Berkeley y la UC San Francisco, ha presentado Evo 2, el modelo de inteligencia artificial más avanzado aplicado a la biología hasta la fecha.

La herramienta, publicada este miércoles en la revista Nature, supone un salto cualitativo respecto a la primera versión y se suma a la reciente ola de avances en genómica computacional.

Una trayectoria meteórica en la biología generativa

La historia de esta tecnología se remonta a 2024, cuando el equipo publicó, esta vez en la revista Science, el modelo original Evo. Aquella primera versión demostró que una arquitectura de aprendizaje profundo podía aprender la lógica del ADN sin supervisión humana, de forma similar a como los grandes modelos de lenguaje aprenden a escribir texto. Sin embargo, aquel precursor estaba entrenado exclusivamente con genomas de organismos unicelulares (bacterias y arqueas) y virus.

“Nuestro desarrollo de Evo 1 y Evo 2 representa un momento clave en el campo emergente de la biología generativa, ya que los modelos han permitido que las máquinas lean, escriban y piensen en el lenguaje de los nucleótidos”, indica Patrick Hsu, cofundador del Arc Institute e investigador principal. “Evo 2 tiene una comprensión generalista del árbol de la vida que es útil para una multitud de tareas, desde predecir mutaciones que causan enfermedades hasta diseñar código potencial para la vida artificial”.

Evo 2 es el último de un puñado de desarrollos recientes en el sector como AlphaGenome (de Google), presentado hace unas semanas

Evo 2 se sitúa a la vanguardia, pero no es el único modelo, sino el último de un puñado de desarrollos recientes en el sector. Por ejemplo, el de AlphaGenome, un modelo presentado hace apenas unas semanas diseñado específicamente por DeepMind (parte de Google) para predecir cómo las variaciones del ADN afectan a la regulación génica. Mientras que AlphaGenome se especializa en descifrar los mecanismos de control de los genes, Evo 2 expande el horizonte hacia una escala genómica completa.

Para esta nueva entrega, el sistema ha sido entrenado con más de 9,3 billones de nucleótidos procedentes de 128 000 genomas, incorporando por primera vez información detallada de plantas, animales y del propio ser humano. Esta expansión le otorga una comprensión más generalista de todos los dominios de la vida, permitiéndole no solo predecir efectos, sino proponer nuevos diseños biológicos.

Un salto en potencia y precisión

El avance técnico ha sido posible gracias a una nueva arquitectura llamada StripedHyena 2, que permite a Evo 2 razonar sobre secuencias ocho veces más largas que su predecesor, lo que supone el millón de nucleótidos de una sola vez. Esta mayor capacidad de ‘memoria’ permite a la IA comprender relaciones entre partes muy distantes de un genoma, algo crucial para identificar mutaciones complejas que los métodos experimentales tardarían años en descubrir.

En pruebas con el gen BRCA1, vinculado al cáncer de mama, Evo 2 alcanzó una precisión superior al 90 % al distinguir entre variaciones benignas y patogénicas. Además de su capacidad de diagnóstico, el modelo abre la puerta a una ingeniería biológica sin precedentes; el equipo ya ha utilizado Evo 2 para diseñar bacteriófagos sintéticos funcionales, una herramienta prometedora para combatir las bacterias resistentes a los antibióticos.

Al igual que el mundo ha dejado su impronta en el lenguaje de internet utilizado para entrenar los grandes modelos lingüísticos, la evolución ha dejado su impronta en las secuencias biológicas

Brian Hie, Universidad de Stanford

“Al igual que el mundo ha dejado su impronta en el lenguaje de internet utilizado para entrenar los grandes modelos lingüísticos, la evolución ha dejado su impronta en las secuencias biológicas”, explica Brian Hie, profesor en Stanford y coautor del trabajo. “Estos patrones, perfeccionados a lo largo de millones de años, contienen señales sobre cómo funcionan e interactúan las moléculas”.

Un ‘sistema operativo’ para la ciencia global

Para los autores, Evo 2 funciona de forma similar al núcleo de un sistema operativo sobre el cual otros investigadores pueden construir aplicaciones específicas. Con el fin de acelerar el progreso científico, el equipo ha publicado el modelo bajo una política de código abierto, compartiendo tanto los datos de entrenamiento como el código y los pesos del modelo.

“Al liberar estas capacidades, hemos dado a los científicos de todo el mundo un nuevo socio para resolver los desafíos más urgentes de salud y enfermedad de la humanidad”, afirma Anthony Costa, director de biología digital en NVIDIA. Con el fin de evitar riesgos éticos, los investigadores han excluido del conjunto de datos los patógenos que afectan a humanos y han implementado salvaguardas para garantizar un uso responsable de la tecnología.

Referencias:

Nguyen et al., “Sequence modeling and design from molecular to genome scale with Evo”, Science, 2024, https://doi.org/10.1126/science.ado9336

Brixi et al., “Genome modeling and design across all domains of life with Evo 2”, Nature, 2025, https://doi.org/10.1038/s41586-026-10176-5

Fuente:
SINC
Derechos: Creative Commons.
Artículos relacionados