Los grandes modelos de lenguaje muestran dificultades para reconocer sus propios errores. A diferencia de los humanos, no ajustan sus expectativas tras equivocarse, lo que plantea dudas sobre su fiabilidad en tareas complejas, según un nuevo estudio.
Los asistentes virtuales basados en inteligencia artificial (IA) están cada vez más presentes en nuestras vidas: en aplicaciones móviles, servicios de atención al cliente o motores de búsqueda. Sin embargo, un nuevo estudio sugiere que estos sistemas podrían estar más seguros de sí mismos de lo que realmente deberían.
Investigadores de la Universidad Carnegie Mellon (CMU, EE UU) compararon la autoconfianza de humanos y de cuatro grandes modelos de lenguaje (LLM, por sus siglas en inglés) —ChatGPT, Bard/Gemini, Sonnet y Haiku— en tareas como responder preguntas de cultura general, predecir resultados de partidos de la NFL o identificar dibujos al estilo del juego Pictionary. Tanto personas como máquinas tendieron a sobrestimar su rendimiento, pero solo los humanos ajustaron sus expectativas después de realizar las tareas.
Por ejemplo, “si una persona creía que iba a acertar 18 preguntas y al final acertaba 15, después corregía su estimación a unas 16”, explica Trent Cash, primer firmante del estudio, publicado en la revista Memory & Cognition. “Seguía siendo un poco optimista, pero menos. Los modelos de IA, en cambio, no corrigieron su exceso de confianza; al contrario, en algunos casos se volvieron aún más seguros de sí mismos tras fallar”.
La investigación, que recopiló datos durante dos años con versiones actualizadas de los modelos, detectó esta sobreconfianza de forma consistente entre diferentes sistemas de IA.
“El problema es que, al expresar sus respuestas con seguridad, los usuarios pueden asumir que la IA tiene razón, incluso cuando no es así”, señala Danny Oppenheimer, coautor del estudio. A diferencia de los humanos, que dan pistas no verbales cuando dudan, las máquinas no muestran señales claras sobre si realmente saben de lo que hablan.
Aunque responder trivialidades o predecir premios de cine puede parecer trivial, el trabajo pone el foco en un asunto más profundo: la metacognición de la IA, es decir, su capacidad para ser consciente de sus propios procesos mentales.
Cuando se preguntó a los modelos por temas más subjetivos o inciertos —como identificar dibujos o predecir ganadores futuros—, su nivel de error fue alto, pero su confianza no disminuyó. En una de las pruebas, el modelo Gemini solo logró identificar correctamente una imagen de cada 20, pero estimó que había acertado más de 14.
“Era como ese amigo que asegura que es buenísimo jugando al billar, pero no mete una sola bola”, comenta Cash.
Entre los modelos evaluados, Sonnet fue el menos confiado en exceso, mientras que ChatGPT-4 mostró un rendimiento más cercano al humano en el juego de dibujo.
Los autores señalan que, si bien los modelos de IA pueden mejorar con más datos, por ahora conviene ser escépticos ante sus afirmaciones. Preguntar explícitamente por su nivel de confianza puede dar pistas útiles, sobre todo cuando los propios sistemas admiten inseguridad.
La IA no está diseñada para responder todo lo que se le plantea. Cuando el chatbot no sabe algo, a menudo, no detecta que desconoce algo
“La IA no está diseñada para responder todo lo que se le plantea", advierte Oppenheimer. "Cuando el chatbot no sabe algo, muchas veces ni siquiera se da cuenta de que no lo sabe”.
A medida que estas tecnologías se integran en la vida cotidiana, reconocer sus límites —como la falta de introspección o de aprendizaje a partir de errores— será crucial para desarrollar sistemas más fiables y responsables.
“Tal vez haya algo intrínsecamente humano en cómo aprendemos y reflexionamos sobre nuestras acciones”, concluye Cash.
Referencia:
Quantifying Uncert-AI-nty: “Testing the Accuracy of LLMs’ Confidence Judgments”. Memory & Cognition, 2025