Las ascendencias europeas sesgan los mapas genéticos y ocultan miles de transcritos humanos

Una investigación del Barcelona Supercomputing Center y del Centro de Regulación Genómica, ambos en Barcelona, revela que los catálogos génicos utilizados en todo el mundo excluyen variaciones clave presentes en poblaciones de África, Asia y América.

autores del estudio, sesgo genético
El análisis, basado en datos de poblaciones de África, Asia y América, demuestra que el uso de referencias genómicas eurocéntricas deja fuera variaciones biológicas relevantes. / Adobe Stock

Los principales mapas genéticos que sirven de base para la biomedicina contienen vacíos importantes porque se elaboraron sobre datos mayoritariamente europeos. Un nuevo estudio publicado en Nature Communications demuestra que esta falta de representación distorsiona el conocimiento sobre cómo los genes influyen en la salud y la enfermedad en gran parte del planeta.

El trabajo, liderado por investigadores del Barcelona Supercomputing Center (BSC) y del Centro de Regulación Genómica (CRG), ha identificado miles de transcritos ausentes en los mapas génicos oficiales, incluidos centenares de posibles nuevos genes aún no descritos.

El análisis, basado en datos de poblaciones de África, Asia y América, demuestra que el uso de referencias genómicas eurocéntricas deja fuera variaciones biológicas relevantes. “Estamos dejando fuera enormes segmentos de la población mundial. Este estudio muestra, por primera vez, cuánto nos estábamos perdiendo”, afirma Pau Clavell-Revelles, primer autor del trabajo.

Estamos dejando fuera enormes segmentos de la población mundial. Este estudio muestra, por primera vez, cuánto nos estábamos perdiendo”

Pau Clavell-Revelles, primer autor del trabajo. (CSC y CRG)

Sesgo desde los inicios de la genómica

Desde la publicación del primer borrador del genoma humano en 2001, han surgido mapas de anotación génica que detallan la posición de los genes y los transcritos que producen. Sin embargo, estos catálogos se construyeron a partir de ADN principalmente europeo. Aunque dos personas comparten el 99,9% de su genoma, las diferencias restantes reflejan la historia evolutiva de cada población. Muchas de esas variantes no se registraron nunca en los mapas de referencia.

“Los catálogos que utilizamos pueden carecer de genes o transcritos presentes únicamente en poblaciones no europeas”, señala Roderic Guigó, coautor principal. “Si una variante cae en un gen ausente, asumimos que no tiene efecto biológico. En algunos casos, esa suposición podría ser errónea”.

La lectura larga de ARN destapa la biología oculta

El estudio empleó secuenciación de ARN de lectura larga, capaz de leer moléculas de ARN completas. Esta tecnología evita los fragmentos dispersos que dificultaban reconstruir transcritos en trabajos anteriores. El equipo analizó células sanguíneas de 43 personas de ocho poblaciones: Yoruba (Nigeria), Luhya (Kenia), Mbuti (Congo), chinos Han, indios Telugu, peruanos de Lima, judíos asquenazíes e individuos de ascendencia europea de Utah.

Los investigadores identificaron 41000 transcritos potenciales ausentes en los catálogos de referencia GENCODE. En el caso de los transcritos que provienen de genes codificadores de proteínas, se estima que el 41% produciría versiones distintas de proteínas ya conocidas. También hallaron ejemplos especialmente reveladores, como una variante específica del gen SUB1, relacionada con la reparación del ADN, presente en personas de ascendencia peruana y completamente ignorada por las anotaciones existentes.

Eequipo analizó células sanguíneas de 43 personas de ocho poblaciones: Yoruba (Nigeria), Luhya (Kenia), Mbuti (Congo), chinos Han, indios Telugu, peruanos de Lima, judíos asquenazíes e individuos de ascendencia europea de Uta

El análisis por grupos de ascendencia mostró una tendencia clara: las muestras no europeas contenían una proporción mucho mayor de transcritos nunca catalogados. El estudio documentó 2.267 transcritos exclusivos de una única población. Mientras que la mayoría de los transcritos europeos ya figuraba en los mapas oficiales, la mayoría de los africanos, asiáticos y americanos aparecía por primera vez. Además, 773 transcritos parecían originarse en regiones génicas no reconocidas previamente, lo que sugiere la existencia de nuevos genes aún sin describir.

El equipo también comprobó que usar el genoma personalizado de cada individuo como referencia, en lugar del genoma estándar, revelaba cientos de transcritos adicionales por persona. El incremento era especialmente alto en muestras africanas, lo que confirma que depender de una única referencia universal oculta variaciones biológicas relevantes.

Señales ocultas en enfermedades comunes

Para evaluar las consecuencias médicas, los autores analizaron el uso de transcritos específicos de alelos. Como cada persona posee dos copias de la mayoría de los genes, diferencias en los transcritos que produce cada copia pueden afectar a su función. Estas señales solo aparecen si todos los transcritos están catalogados. Tras incorporar los miles de transcritos ausentes, el equipo detectó muchos más efectos genéticos que influyen en la actividad de los genes, sobre todo en individuos no europeos.

Observamos que muchos de los nuevos transcritos sesgados por ascendencia aparecen en genes ya asociados a enfermedades autoinmunes, asma y rasgos metabólicos

Marta Melé, coautora principal (BSC)

“Observamos que muchos de los nuevos transcritos sesgados por ascendencia aparecen en genes ya asociados a enfermedades autoinmunes, asma y rasgos metabólicos”, explica la investigadora Marta Melé, coautora principal del estudio y jefa de grupo en el BSC. Aclara que estos transcritos no representan necesariamente la causa de las diferencias en la enfermedad, pero revelan información que permanecía oculta. Sin ellos, se pierde parte de la explicación sobre por qué algunas dolencias son más comunes o se comportan de forma distinta según la población.

Hacia un pantranscriptoma humano

Los autores subrayan que este trabajo constituye solo un primer paso. El estudio analizó un único tipo celular de un solo tejido y solo incluyó 43 personas, sin representar grandes regiones del mundo ni numerosos órganos. Aun con estas limitaciones, se detectaron decenas de miles de transcritos ignorados por los mapas oficiales. Para Fairlie Reese, investigadora posdoctoral del BSC, la magnitud de lo hallado con una muestra tan pequeña es reveladora. “Creemos firmemente que cualquier resultado obtenido aquí es solo la punta del iceberg”, afirma.

Cualquier resultado obtenido aquí es solo la punta del iceberg

El equipo señala que, al igual que iniciativas como el Human Pangenome Project han empezado a ampliar la referencia genómica global, la comunidad científica debe construir ahora un pantranscriptoma humano: un catálogo completo de todas las moléculas de ARN utilizadas en todos los tejidos, etapas de la vida y poblaciones. “El pangenoma nos informa sobre la diversidad del ADN. El pantranscriptoma nos indica qué palabras son importantes en cada célula de nuestro cuerpo”, explica Melé.

Solo mediante un esfuerzo colectivo lograremos un mapa completo e inclusivo de la biología humana, esencial para una medicina genómica justa y precisa

El reto es enorme. Solo este estudio generó más de diez terabytes de datos y 800 millones de secuencias completas de ARN, procesadas gracias al superordenador MareNostrum 5. Ampliar el análisis a cientos de tejidos y miles de personas requerirá esfuerzos computacionales y una coordinación internacional mucho mayor. Aun así, los investigadores consideran la tarea imprescindible. “Esperamos que nuestro estudio sirva como base y como invitación a la comunidad científica global. Solo mediante un esfuerzo colectivo lograremos un mapa completo e inclusivo de la biología humana, esencial para una medicina genómica justa y precisa”, dice Melé.

800 millones de secuencias completas de ARN

Construir un recurso así es una tarea titánica. Solo este estudio generó más de 10 terabytes de datos y 800 millones de secuencias completas de ARN, lo que requirió herramientas avanzadas de aprendizaje automático y la capacidad del superordenador MareNostrum 5 del BSC. Escalar este trabajo a cientos de tejidos y miles de personas exigiría capacidades computacionales y una coordinación global de otra magnitud.

Fuente:
BSC
Derechos: Creative Commons.
Artículos relacionados