Nuevo método para identificar modelos de lenguaje sobreconfianzudos

Por Álvaro Gómez Tornero

alvarogomeztornerogmailcom/18/18/24

jueves 19 de marzo de 2026, 18:58h

Investigadores del MIT han desarrollado un nuevo método para medir la incertidumbre en modelos de lenguaje, mejorando la identificación de respuestas incorrectas y reduciendo el riesgo de confiar en predicciones erróneas.

Los modelos de lenguaje de gran tamaño (LLMs) tienen la capacidad de generar respuestas que, aunque parecen creíbles, pueden ser inexactas. Con el fin de evaluar la fiabilidad de estas predicciones, los investigadores han desarrollado métodos de cuantificación de incertidumbre. Uno de los enfoques más comunes consiste en enviar el mismo aviso varias veces para observar si el modelo produce la misma respuesta.

No obstante, este método se centra en la autoconfianza del modelo, lo que significa que incluso los LLM más avanzados pueden estar equivocados con seguridad. La sobreconfianza puede llevar a los usuarios a tener una percepción errónea sobre la precisión de una predicción, lo cual podría acarrear consecuencias graves en ámbitos críticos como la salud o las finanzas.

Para abordar esta limitación, un equipo de investigadores del MIT ha presentado un nuevo método que permite medir un tipo diferente de incertidumbre, capaz de identificar con mayor precisión las respuestas incorrectas pero seguras de los LLM.

Nueva metodología para medir la incertidumbre

El enfoque propuesto por los investigadores implica comparar la respuesta de un modelo objetivo con las respuestas generadas por un grupo de LLMs similares. Según sus hallazgos, medir el desacuerdo entre modelos ofrece una representación más precisa de esta forma de incertidumbre en comparación con los métodos tradicionales.

Este nuevo enfoque se combina con una medida de autoconsistencia del LLM para crear una métrica total de incertidumbre, evaluada en 10 tareas realistas como respuesta a preguntas y razonamiento matemático. Los resultados muestran que esta métrica total supera consistentemente a otras medidas y es más eficaz al identificar predicciones poco fiables.

Kimia Hamidieh, estudiante graduada en ingeniería eléctrica y ciencias computacionales del MIT y autora principal del estudio, explica: “La autoconsistencia se utiliza en muchos enfoques diferentes para la cuantificación de incertidumbre, pero si tu estimación solo depende del resultado de un único modelo, no es necesariamente confiable”. Junto a ella colaboran otros expertos como Veronika Thost, científica investigadora en el MIT-IBM Watson AI Lab, y Marzyeh Ghassemi, profesora asociada en EECS.

Comprendiendo la sobreconfianza en modelos

Las metodologías populares para cuantificar la incertidumbre suelen solicitar al modelo un puntaje de confianza o verificar la consistencia de sus respuestas ante el mismo aviso. Estos métodos estiman la incertidumbre aleatoria, es decir, cuán seguro está el modelo sobre su propia predicción.

A pesar de esto, los LLM pueden mostrar confianza incluso cuando están completamente equivocados. Investigaciones previas han demostrado que la incertidumbre epistémica —la duda sobre si se está utilizando el modelo correcto— puede ser una mejor manera de evaluar la verdadera incertidumbre cuando un modelo presenta sobreconfianza.

Los investigadores del MIT calculan esta incertidumbre epistémica midiendo el desacuerdo entre un grupo similar de LLMs. Hamidieh aclara: “Si le pregunto a ChatGPT lo mismo varias veces y siempre obtengo la misma respuesta, eso no significa que sea correcta. Si cambio a Claude o Gemini y recibo una respuesta diferente, eso me dará una idea sobre la incertidumbre epistémica”.

Un enfoque basado en conjuntos para mejorar las estimaciones

La metodología desarrollada por el equipo incluye medir la divergencia entre el modelo objetivo y un pequeño conjunto de modelos con arquitectura y tamaño similares. Descubrieron que comparar la similitud semántica —es decir, cuán cercanas son las significaciones de las respuestas— puede proporcionar una mejor estimación de la incertidumbre epistémica.

Para lograr una estimación precisa, necesitaban un conjunto diverso de LLMs que ofrecieran respuestas variadas y no fueran demasiado similares al modelo objetivo. “Encontramos que la forma más sencilla para cumplir estos requisitos era utilizar modelos entrenados por diferentes empresas”, comenta Hamidieh.

Una vez desarrollada esta metodología para estimar la incertidumbre epistémica, se combinó con un enfoque estándar que mide la incertidumbre aleatoria. La métrica total de incertidumbre (TU) resultante proporciona una representación más fiel sobre si el nivel de confianza del modelo es digno de confianza.

Efectividad y aplicaciones futuras del método

TU podría identificar más eficazmente situaciones donde un LLM está generando información errónea o "alucinando", ya que la incertidumbre epistémica puede señalar salidas equivocadas presentadas con confianza que podrían pasar desapercibidas por la incertidumbre aleatoria. Además, permitiría reforzar durante el entrenamiento las respuestas correctas dadas con seguridad por parte del LLM, potencialmente mejorando su rendimiento.

Los experimentos realizados mostraron que TU identificó predicciones poco fiables más efectivamente que cualquiera de las métricas individuales. Además, medir la incertidumbre total frecuentemente requería menos consultas que calcular únicamente la incertidumbre aleatoria, lo cual podría reducir costos computacionales y ahorrar energía.

A medida que avanzan sus investigaciones, los científicos consideran adaptar su técnica para mejorar su desempeño en consultas abiertas y explorar otras formas de incertidumbre aleatoria.

MIT