Trazan una hoja de ruta para una IA de diseño de proteínas más segura y explicable

Un equipo del Centro de Regulación Genómica ha realizado la revisión más completa hasta la fecha sobre inteligencia artificial aplicada al diseño de proteínas. El trabajo subraya la urgencia de entender cómo funcionan estos modelos, que aún presentan importantes limitaciones en transparencia e interpretabilidad.

Estructura de la proteína vitelogenina
La estructura de la proteína vitelogenina (precursora de la yema de huevo) predicha por la herramienta AlphaFold. / DeepMind

Los modelos de lenguaje de proteínas son herramientas de inteligencia artificial que ayudan a diseñar proteínas con propiedades útiles, pero también estructuras que jamás se han observado en la naturaleza. Esta tecnología tiene un enorme potencial para abordar retos globales, que incluyen la síntesis de enzimas capaces de absorber dióxido de carbono de la atmósfera o el desarrollo de catalizadores que reduzcan drásticamente el consumo energético.

Los modelos de lenguaje de proteínas operan en gran medida como cajas negras, lo que dificulta comprender su proceso de decisión y valorar si sus predicciones son fiables

A medida que muchos de estos modelos empiezan a condicionar decisiones reales en biotecnología, persiste un problema de fondo. Los modelos de lenguaje de proteínas operan en gran medida como cajas negras. Este vacío de información dificulta comprender su proceso de decisión y valorar si sus predicciones son fiables, están sesgadas o resultan siquiera seguras para aplicarse en el mundo real.

En un nuevo artículo publicado en Nature Machine Intelligence, un equipo de investigación del Centro de Regulación Genómica (CRG) analiza cómo se aplica actualmente a los modelos de lenguaje de proteínas la 'IA explicable', el conjunto de técnicas y métodos que permiten a las personas comprender, confiar e interpretar las decisiones de esta tecnología.

Necesidad de transparencia

Noelia Ferruz, jefa de grupo en el CRG y autora principal del trabajo, destaca que si bien los modelos de lenguaje de proteínas avanzan a gran velocidad, la comprensión de la comunidad científica sobre procesos biológicos fundamentales como el plegamiento o la catálisis no ha progresado al mismo ritmo que estos avances.

Sin mejores formas de explicar qué aprenden estos modelos y cómo toman sus decisiones, corremos el riesgo de construir herramientas potentes en las que no podemos confiar plenamente

Andrea Hunklinger, primera autora

El grupo de investigación expresa la necesidad que los sistemas de diseño de proteínas sean más transparentes, fiables y seguros. “Si queremos que los modelos de lenguaje de proteínas se conviertan en un socio fiable en el descubrimiento y el diseño, la explicabilidad no puede ser una idea de última hora”, señala Andrea Hunklinger, primera autora del trabajo.

“En cierto modo, hemos perdido incluso parte de la transparencia que caracterizaba a los modelos basados en la física. Sin mejores formas de explicar qué aprenden estos modelos y cómo toman sus decisiones, corremos el riesgo de construir herramientas potentes en las que no podemos confiar plenamente”, añade Ferruz.

Cuatro puntos que investigar

Los autores del trabajo identifican cuatro puntos clave en el recorrido del modelo que resultan críticos a la hora de explicar su toma de decisiones. El primero son los datos de entrenamiento con los que ha aprendido el modelo, lo que puede revelar si presenta sesgos que no contemplan la diversidad genética humana o si dispone de suficientes datos sobre proteínas humanas.

El segundo es la secuencia concreta de proteína que se le proporciona al modelo, por ejemplo, qué aminoácidos o regiones de la proteína han influido más en la predicción. El tercero es la arquitectura y los componentes internos del propio modelo de lenguaje de proteínas. Eso implica comprobar si las neuronas artificiales que utiliza la IA están procesando la información correctamente.

Por último, los investigadores pueden sondear un modelo de lenguaje de proteínas dándole pequeños empujones y observando qué sucede. Es lo que se conoce como comportamiento entrada-salida y consiste en estudiar cómo cambia la respuesta del modelo si se altera ligeramente la secuencia de la proteína o la pregunta planteada.

¿Qué se busca al abrir la ‘caja negra’?

Para entender cómo se está utilizando la inteligencia artificial explicable en la investigación de proteínas, el equipo revisó la bibliografía científica existente y examinó decenas de estudios en los que ya se han aplicado herramientas de explicabilidad a modelos de lenguaje de proteínas. Se trata de la revisión más exhaustiva de este tipo realizada hasta la fecha.

Los roles ‘evaluador' y ‘multitarea’ dominan hoy el campo y demuestran el uso de la herramienta para apoyo y verificación, no como motor de descubrimiento

En casi todos los casos, la explicabilidad se utiliza como ‘evaluador' , es decir, como una vía para comprobar si el modelo ha aprendido patrones que los biólogos ya conocen, como el reconocimiento de sitios de unión o motivos estructurales.

“Aunque los evaluadores resultan útiles para medir la calidad del modelo, no permiten extrapolar a ejemplos desconocidos, mejorar la arquitectura de los modelos y, lo que es más importante, desvelar conocimientos biológicos que emergen de los datos de entrenamiento”, sostiene Hunklinger.

Una proporción menor de estudios va un paso más allá y emplea estos hallazgos como  ‘multitarea’, reaprovechando las señales aprendidas para anotar nuevas proteínas o predecir propiedades adicionales. Según el grupo, estos dos roles dominan hoy el campo, lo que demuestra que la explicabilidad se utiliza sobre todo como herramienta de verificación y apoyo, y no como motor del descubrimiento.

En los resultados se destaca además que existe un número limitado de estudios que aprovecha los conocimientos derivados de la IA explicable como 'Ingeniero' o 'Entrenador', lo que ayuda a recortar componentes superfluos y rediseñar arquitecturas para orientar la tecnología hacia la generación de secuencias de proteínas con las características deseadas.

Hacia un modelo ‘profesor’

El quinto rol de la IA explicable en el lenguaje de proteínas es el de ‘profesor’. Este tipo destaca como el más ambicioso y el menos desarrollado y puede contribuir a desvelar principios biológicos completamente nuevos que los humanos no habían reconocido hasta ahora.

“Para nosotros, el verdadero santo grial es el diseño controlable de proteínas. Imagina poder decirle a un modelo: ‘Diséñame una proteína con esta forma, activa a este pH’, y recibir no solo una secuencia candidata, sino también una explicación clara de por qué ese diseño debería funcionar y, sobre todo, por qué fallarían las alternativas”, explica Ferruz.

Alcanzar ese nivel de control y de transparencia mecanística llevaría a los modelos de lenguaje de proteínas a pasar de ser generadores impresionantes a convertirse en socios de diseño verdaderamente fiables

Noelia Ferruz, autora principal

En las ciencias de las proteínas, alcanzar la fase de 'Profesor' supondría que los sistemas de IA ayudaran a los investigadores a descubrir nuevas reglas de plegamiento, catálisis o interacción molecular capaces de transformar el modo en que se diseñan medicamentos, materiales y tecnologías sostenibles.

“Por ejemplo, el modelo podría explicar que una mutación concreta alteraría una red de enlaces de hidrógeno esencial para la estabilidad. Alcanzar ese nivel de control y de transparencia mecanística llevaría a los modelos de lenguaje de proteínas a pasar de ser generadores impresionantes a convertirse en socios de diseño verdaderamente fiables”, añade la experta.

Llegar a la categoría de 'Profesor' en los modelos de lenguaje de proteínas no ocurrirá de manera automática. Los modelos actuales son potentes reconocedores de patrones, pero a menudo se apoyan en correlaciones estadísticas más que en una comprensión real. Los autores insisten en que deben cumplirse varias condiciones, y su principal preocupación gira en torno a la fiabilidad y la validación.

Referencia

Hunklinger et al. Towards the explainability of protein language models.  Nature Machine Intelligence (2026). 

Derechos: Creative Commons.
Artículos relacionados