Una IA predice el riesgo de más de mil enfermedades con décadas de antelación

El modelo de inteligencia artificial generativa se ha entrenado con datos médicos de millones de pacientes europeos y permite estudiar cómo evoluciona la salud a lo largo del tiempo. Sus predicciones podrían ayudar a mejorar la prevención y la planificación sanitaria.

Una IA predice el riesgo de más de mil enfermedades con décadas de antelación

Científicos del Laboratorio Europeo de Biología Molecular (EMBL) y del Centro Alemán de Investigación Oncológica (DKFZ) han desarrollado un modelo de IA generativa capaz de analizar historiales médicos a gran escala y estimar cómo evoluciona la salud humana a lo largo del tiempo.

El sistema predice tanto el riesgo como el momento probable de aparición de más de mil enfermedades. Para entrenarlo, se utilizaron datos anónimos de más de 400 000 pacientes del UK Biobank, y se validó con información de 1,9 millones de personas del Registro Nacional de Pacientes Daneses.

Utilizó datos de más de 400 000 pacientes del UK Biobank y se validó con información de 1,9 millones de personas del Registro de Pacientes Danés 

Según sus desarrolladores, es una de las demostraciones más completas hasta la fecha de cómo la IA generativa puede modelar la progresión de enfermedades humanas en distintos sistemas sanitarios.

“Nuestro modelo de IA es una prueba de concepto: demuestra que es posible aprender de nuestros patrones de salud a largo plazo y usar esta información para generar predicciones valiosas”, afirma Ewan Birney, director general interino del EMBL.

Planificar intervenciones preventivas

“Si modelamos cómo se desarrollan las enfermedades a lo largo del tiempo, podemos empezar a explorar cuándo empiezan a emerger ciertos riesgos y esto nos permite planificar intervenciones preventivas. Es un gran paso hacia un sistema de salud personalizado y hacia la medicina preventiva”, añade Birney.

Publicado en Nature, el trabajo es fruto de una colaboración entre el EMBL, el DKFZ y la Universidad de Copenhague. Esta IA se basa en principios similares a los de los modelos de lenguaje a gran escala (LLM, por sus siglas en inglés), y aprende la ‘gramática’ de los datos de salud para representar los historiales médicos como secuencias de eventos —diagnósticos o factores de estilo de vida como el tabaquismo— que ocurren en un orden determinado y con intervalos temporales entre ellos.

El sistema funciona muy bien en enfermedades con patrones de desarrollo consistentes, como ciertos tipos de cáncer, infartos o sepsis

“Los eventos médicos a menudo siguen patrones predecibles”, explica Tom Fitzgerald, investigador del EMBL. “Nuestro modelo de IA aprende esos patrones y puede predecir resultados de salud. Nos proporciona una vía para explorar lo que podría pasarle a una persona basándose en su historial médico y otros factores clave. Obviamente la predicción no es una certeza, sino una estimación de los riesgos potenciales”.

Estimación de riesgos

El sistema funciona especialmente bien en enfermedades con patrones de desarrollo consistentes, como ciertos tipos de cáncer, infartos o sepsis. Como ocurre con las predicciones meteorológicas, ofrece probabilidades, no certezas. Por ejemplo, puede estimar el riesgo de desarrollar una enfermedad cardiovascular en el próximo año, expresado como tasas a lo largo del tiempo, similar a prever un 70 % de probabilidad de lluvia.

Estima la probabilidad de sufrir una enfermedad cardiovascular en un año, con tasas similares a las que se usan para prever lluvia

Algunos eventos, como el riesgo de hospitalización por un infarto, se pueden anticipar con mayor precisión, mientras que otros presentan más incertidumbre. Las predicciones a corto plazo resultan más fiables que las de largo alcance. En cohortes del UK Biobank entre 50 y 55 años, el riesgo de infarto varía desde una probabilidad de 1 en 10 000 por año hasta 1 en 100, según diagnósticos previos y estilo de vida. Las mujeres presentan un riesgo medio menor, pero con una distribución similar. 

En general, la probabilidad aumenta con la edad. Una evaluación sistemática mostró que los riesgos calculados del modelo se corresponden bien con los casos observados.

Limitaciones y sesgos

El modelo está calibrado para producir estimaciones precisas a escala poblacional, pero presenta limitaciones. Los datos del UK Biobank se centran en personas de entre 40 y 60 años, lo que deja fuera enfermedades pediátricas y adolescentes. También existen sesgos demográficos por la falta de diversidad en los datos, con subrepresentación de ciertos grupos étnicos.

Los datos del UK Biobank se centran en personas de entre 40 y 60 años, lo que deja fuera enfermedades pediátricas y adolescentes

Aunque no está listo para su aplicación clínica, ya permite a los investigadores estudiar cómo se desarrollan las enfermedades, explorar el impacto del estilo de vida y antecedentes médicos en el riesgo a largo plazo, y simular resultados de salud con datos artificiales en contextos donde los reales son inaccesibles.

En el futuro, modelos similares entrenados con datos más representativos podrían ayudar a identificar pacientes de alto riesgo y planificar mejor los recursos sanitarios.

“Este es el principio de una nueva manera de entender la salud humana y el desarrollo de enfermedades”, señala Moritz Gerstung, director de la División de IA en Oncología en DKFZ. “Algún día, modelos generativos como el nuestro podrían ayudar a personalizar la asistencia y a anticipar necesidades sanitarias a gran escala. Al aprender de grandes poblaciones, estos modelos ofrecen una perspectiva poderosa sobre cómo se desarrollan las enfermedades y, a la larga, podrían ayudar a hacer intervenciones preventivas y más personalizadas”.

Datos anonimizados y normas éticas

El modelo se entrenó con datos anonimizados bajo estrictas normas éticas. Los participantes del UK Biobank dieron su consentimiento informado, y los datos daneses se analizaron conforme a las regulaciones nacionales, sin salir del país. Los investigadores utilizaron sistemas virtuales seguros para garantizar la privacidad y el cumplimiento de los estándares éticos.

Este trabajo ha sido financiado por los Estados miembros del EMBL, el DKFZ y la Fundación Novo Nordisk.

Referencia:

Artem Shmatko et al.“Learning the natural history of human disease with generative transformers”. Nature, 2025.

Fuente:
SINC
Derechos: Creative Commons.
Artículos relacionados