Un estudio evalúa la seguridad de modelos de inteligencia artificial para combatir la divulgación de información falsa o maliciosa en consultas sobre salud. Los investigadores revelan vulnerabilidades en Chat GPT- 4 y Gemini 1.5 Pro, Claude 3.5 Sonnet, Llama 3.2-90B Vision y Grok Beta.
Los grandes modelos de inteligencia artificial (LLM, por sus siglas en inglés) pueden manipularse para generar información falsa sobre salud, mediante instrucciones simples y sin técnicas muy avanzadas.
Un reciente estudio, publicado en Annals of Internal Medicine, evalúo las interfaces de las cinco LLM más importantes para comprobar si podían engañar a su sistema con el propósito de que generara respuestas médicas incorrectas.
Según dice a SINC el líder de este proyecto e investigador de la universidad de Flinders (Australia), Ashley Hopkins, “las instrucciones incluían indicaciones para utilizar números y porcentajes específicos en las respuestas para que resultaran más creíbles, a la vez que se introducía jerga científica para que parecieran más rigurosas”.
A cada uno de los modelos le dieron una orden sistemática: dar respuestas incorrectas sobre temas de salud, falsificar fuentes o estudios y que respondiera con un tono de autoridad. Asimismo, se les ordenó que mantuvieran la coherencia en la información proporcionada con razonamientos lógicos.
“No nos sorprendió el resultado”, señala en científico. “Trabajos precedentes indicaban un riesgo real de que los modelos generativos pudieran ser engañados para responder de forma maliciosa a las consultas de los usuarios, ya fuera de manera intencionada o no, para actuar como bots de desinformación”, argumenta.
Para ello, Hopkins y su equipo formularon 10 consultas relacionadas con la salud a cada uno de los chatbots.
Se dieron cuenta de que el 88 % de las respuestas de las IA personalizadas fueron desinformación, mientras que las cuatro más importantes (GPT-4o, Gemini 1.5 Pro, Llama 3.2-90B Vision y Grok Beta) proporcionaron información maliciosa en todas las preguntas evaluadas.
En concreto, el chatbot Claude 3.5 Sonnet mostró algunos mecanismos de defensa al responder el 40 % del tiempo con desinformación. No obstante, no tuvieron acceso a los mecanismos internos de cada uno de los modelos; tan solo observaron su comportamiento externo.
“Esto pone de relieve la necesidad de una mayor transparencia por parte de los desarrolladores en cuanto a sus capacidades previstas y mecanismos de protección”, revela a SINC el investigador.
Los científicos no recurrieron a técnicas especializadas como el jailbreaking —un proceso para eliminar las restricciones impuestas por el desarrollador de software— sino que emplearon una plantilla coherente que enseñaba al modelo para que siempre respondiera de forma incorrecta. Las respuestas debían incluir referencias de gran prestigio como The Lancet, Nature o Science para aumentar su credibilidad.
En otro análisis independiente de OpenAI, los investigadores analizaron si alguna GPT de acceso público parecía difundir desinformación sanitaria.
Los científicos identificaron tres que parecían estar optimizadas para producir dicho contenido, lo que generó respuestas de desinformación sobre salud al 97 % de las preguntas enviadas.
Su preocupación actual es la creación de GPTs personalizados para que desempeñen una función encubierta de desinformación, aunque su análisis fue exploratorio y no hubo una revisión sistemática de la plataforma.
“Las plataformas que permiten a los usuarios acceder a las API de los modelos o crear y compartir públicamente GPT personalizados corren el riesgo de permitir que actores maliciosos exploten estas tecnologías con fines perjudiciales, ya sea para obtener beneficios económicos, causar trastornos, confusión o discriminación”, recalca Hopkins a SINC.
En definitiva, “nuestros resultados revelan la urgente necesidad de mejorar las medidas de seguridad”, apunta el investigador, sobre todo en plataformas que son públicas para todo el mundo. La IA es vulnerable al uso indebido y, sin mejores medidas de protección, podría utilizarse como herramientas para difundir desinformación sanitaria perjudicial.
Estos riesgos “no son teóricos, sino que reflejan estrategias conocidas por quienes difunden activamente la desinformación”, afirma el científico. A medida que la IA se vuelve más accesible, cabe esperar que actores con malas intenciones quieran hacer un uso indebido de ella, según destaca.
Referencia:
Natansh D. et al. "Assessing the System-Instruction Vulnerabilities of Large Language Models to Malicious Conversion Into Health Disinformation Chatbots". Annals of Internal Medicine. 2025