Una IA española descifra el lenguaje secreto de la agregación de proteínas

Científicos del Instituto de Bioingeniería de Cataluña y del Centro de Regulación genómica han desarrollado una nueva herramienta de inteligencia artificial que permite predecir cuándo y por qué tiene lugar la agregación de proteínas, un mecanismo vinculado al alzhéimer y otras 50 enfermedades. El avance podrá utilizarse en la investigación en enfermedades neurodegenerativas y la mejora de la producción de fármacos.

Agregados amiloides, proteínas
Agregados amiloides en el interior de células marcadas mediante técnicas de fluorescencia. / Benedetta Bolognesi | IBEC 

Una herramienta de inteligencia artificial da un importante paso en la traducción del lenguaje que utilizan las proteínas para saber si formarán agregados pegajosos—proteínas defectuosas unidas entre sí— cuya presencia se relaciona con el alzhéimer y con más de cincuenta tipos de enfermedades humanas.

A diferencia otros modelos de IA de ‘caja negra’, CANYA puede explicar sus decisiones. De hecho, reveló patrones químicos específicos que impulsan o previenen la agregación dañina de las proteínas. 

La aglomeración de proteínas es un peligro para la salud que altera la función normal de las células

El descubrimiento, publicado en la revista Science Advances, ofrece nuevos conocimientos sobre los mecanismos moleculares que causan esta unión, que está relacionada con enfermedades que afectan a 500 millones de personas en todo el mundo. 

La aglomeración de proteínas, o también denominada agregación amiloide, es un peligro para la salud que altera la función normal de las células. Cuando ciertas partes de las proteínas se adhieren entre sí se convierten en masas densas y fibrosas que pueden tener llevar a problemas de salud. 

Impacto en la biotecnología y e industria farmacéutica

Aunque el estudio tiene implicaciones para la investigación de enfermedades neurodegenerativas, su impacto más inmediato será en la biotecnología, ya que muchos fármacos son proteínas y, a menudo, su función se ve obstaculizada por uniones no deseadas. 

"La agregación de proteínas es un gran dolor de cabeza para las compañías farmacéuticas", afirma Benedetta Bolognesi, coautora principal del estudio y líder de grupo en el Instituto de Bioingeniería de Cataluña (IBEC). 

El lenguaje de una proteína tiene veinte letras diferentes, cuyas combinaciones forman ‘palabras’ o ‘motivos’

"Si una proteína terapéutica comienza a agregarse, los lotes de fabricación pueden fallar, lo que cuesta tiempo y dinero. CANYA puede ayudar a guiar los esfuerzos para diseñar anticuerpos y enzimas que tengan menos probabilidades de juntarse y reducir los contratiempos en el proceso", añade. 

Las agregaciones proteicas se forman mediante un lenguaje poco conocido. Las proteínas están creadas por veinte tipos diferentes de aminoácidos. En lugar de las habituales letras A, C, G, T que componen el lenguaje del ADN, el lenguaje de una proteína tiene veinte letras diferentes, cuyas combinaciones forman ‘palabras’ o ‘motivos’. 

Un idioma misterioso

Varios investigaciones han intentado durante mucho tiempo descifrar qué combinaciones causan la agregación amiloide y qué otras permiten que las proteínas se plieguen sin errores.

Las herramientas de inteligencia artificial que tratan los aminoácidos como el alfabeto de un idioma misterioso podrían ayudar a identificar las palabras o motivos específicos responsables. No obstante, la calidad y el volumen de los datos necesarios para alimentar los modelos han sido escasos o se han restringido a fragmentos muy pequeños. 

Alrededor de uno de cada cinco fragmentos de proteína causó aglomeración, mientras que el resto no lo hizo

El estudio ha abordado este reto mediante la realización de experimentos a gran escala. Los autores del trabajo crearon más de 100 000 fragmentos de proteínas aleatorios desde cero, cada uno de 20 aminoácidos de largo.

La capacidad de cada fragmento sintético para unirse se probó en células de levadura vivas. Así, si un fragmento desencadenara la formación de agregados, las células de levadura crecerían de una manera particular que puede ser analizada para determinar la causa y el efecto. 

Alrededor de uno de cada cinco fragmentos de proteína causó aglomeración, mientras que el resto no lo hizo. El nuevo conjunto de datos registró un catálogo mucho mayor de las diferentes variantes de proteínas que pueden causar la agregación amiloide. 

"Hemos creado fragmentos de proteínas aleatorios, incluidas muchas versiones que no se encuentran en la naturaleza. La evolución ha explorado solo una fracción de todas las secuencias de proteína posibles, mientras que nuestro enfoque nos ayuda a asomarnos a una galaxia mucho mayor de posibilidades, proporcionando una gran cantidad de puntos de datos para ayudar a comprender las leyes más generales del comportamiento de agregación", explica Mike Thompson, primer autor del estudio e investigador postdoctoral en el Centro de Regulación Genómica (CRG). 

Una IA más transparente

La gran cantidad de datos generados se utilizó para entrenar a CANYA. El equipo decidió crearla utilizando los principios de la "IA explicable", para que sus procesos de toma de decisiones fueran más transparentes y comprensibles. Esto significó sacrificar parte de su poder predictivo, que suele ser mayor en las IA de "caja negra". A pesar de ello, CANYA demostró ser alrededor de un 15 % más precisa que los modelos existentes. 

En concreto, CANYA es un modelo de convolución-atención, es decir una herramienta híbrida que toma prestado de dos áreas distintas de la IA.

Los modelos de convolución, como los que se utilizan en el reconocimiento de imágenes, escanean las fotos en busca de características como una oreja o una nariz para identificar una cara. De esta misma manera, CANYA ojea la cadena de proteínas para encontrar características significativas como motivos o ‘palabras’. 

El equipo decidió crearla utilizando los principios de la ‘IA explicable’, haciendo que sus procesos de toma de decisiones fueran transparentes y comprensibles

Por otro lado, las herramientas de traducción de idiomas utilizan los modelos de IA para identificar frases en una oración antes de decidir cuál es la mejor traducción. El equipo incorporó esta técnica para ayudar a CANYA a descubrir qué motivos son los más importantes de toda la proteína. 

Juntos, estos dos enfoques ayudan a la IA a ver de cerca los motivos locales y, al mismo tiempo, a detectar su importancia a gran escala. Se puede usar esta información no solo para predecir qué motivos en la cadena de proteínas fomentan la aglomeración, la bloquean o provocan un estadio intermedio, sino también para comprender por qué. 

Por ejemplo, CANYA demostró que las pequeñas regiones de aminoácidos repelentes al agua son más propensas a provocar aglomeración, mientras que algunos motivos tienen un mayor impacto en la aglomeración si se encuentran hacia el inicio de una secuencia de proteínas en lugar de hacia el final. Estas observaciones se alinean con hallazgos previos que se han visto bajo el microscopio en fibrillas amiloides conocidas.  

Pero CANYA también encontró nuevas reglas que dirigen la agregación de proteínas. Por ejemplo, se pensaba que ciertos componentes básicos de las proteínas, los llamados aminoácidos cargados, evitan la aglomeración. Pero resulta que, en el contexto de otros bloques de construcción específicos, en realidad pueden promover la aglomeración. 

Todavía falta desarrollo

En su forma actual, CANYA explica la agregación de proteínas en términos de sí o no, es decir, funciona como un llamado ‘clasificador’. Cómo trabajo futuro, el equipo quiere refinar el sistema para que pueda predecir y comparar las velocidades de agregación en lugar de solo la probabilidad de agregación.

Esto podría ayudar a predecir qué variantes de proteínas forman agregados rápidamente y cuáles lo hacen más lentamente, un factor vital en las enfermedades neurodegenerativas en las que el momento de la formación de amiloide es tan importante como el hecho de que ocurra. 

CANYA explica principalmente la agregación de proteínas en términos de sí o no, es decir, funciona como un llamado ‘clasificador’

"Hay 1 024 quintillones de formas de crear un fragmento de proteína de 20 aminoácidos de largo. Hasta ahora, hemos entrenado una IA con solo 100.000 fragmentos. Queremos mejorar el proceso creando más fragmentos y más grandes", concluye Bolognesi. 

"Este proyecto es un gran ejemplo de cómo la combinación de la generación de datos a gran escala con la IA puede acelerar la investigación. También se trata de un método muy rentable para generar datos", dice el profesor de investigación ICREA Ben Lehner, coautor principal del estudio y jefe de grupo en el CRG y el Instituto Wellcome Sanger.  

"Usando la síntesis y secuenciación de ADN, podemos realizar cientos de miles de experimentos en un solo tubo, generando los datos que necesitamos para entrenar modelos de IA. Este es un enfoque que estamos aplicando a muchos problemas difíciles de la biología, con el objetivo de que esta sea predecible y programable", añade Lehner. 

Referencia:

Thompson et al, Massive experimental quantification allows interpretable deep learning of protein aggregation, Science Advances (2025).

Fuente:
CRG
Derechos: Creative Commons.
Artículos relacionados