Investigadores del MIT han desarrollado un nuevo método de entrenamiento para modelos de IA que mejora la estimación de confianza, reduciendo errores de calibración hasta un 90% sin sacrificar precisión.
La confianza es persuasiva, pero en los sistemas de inteligencia artificial (IA) puede resultar engañosa. Los modelos de razonamiento más avanzados a menudo presentan un rasgo común: ofrecen respuestas con una certeza inquebrantable, independientemente de si están en lo correcto o simplemente adivinando. Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL) han identificado que esta sobreconfianza se origina en un defecto específico en el entrenamiento de estos modelos y han desarrollado un método para corregirlo sin sacrificar la precisión.
La técnica, denominada RLCR (Reinforcement Learning with Calibration Rewards), enseña a los modelos de lenguaje a generar estimaciones de confianza calibradas junto con sus respuestas. Además de proporcionar una respuesta, el modelo evalúa su incertidumbre respecto a esa respuesta y emite una puntuación de confianza. En experimentos realizados en múltiples benchmarks, RLCR logró reducir el error de calibración hasta en un 90% mientras mantenía o mejoraba la precisión, tanto en las tareas para las que fue entrenado como en otras completamente nuevas que nunca había visto. Este trabajo será presentado en la Conferencia Internacional sobre Representaciones Aprendidas más adelante este mes.
El origen del problema es sorprendentemente simple. Los métodos de aprendizaje por refuerzo (RL) que han impulsado los recientes avances en el razonamiento por IA, como el enfoque utilizado en sistemas como OpenAI’s GPT-3, recompensan a los modelos por obtener la respuesta correcta y los penalizan por fallar. No hay espacio intermedio; un modelo que llega a una respuesta correcta mediante un razonamiento cuidadoso recibe la misma recompensa que uno que acierta por azar. Con el tiempo, esto entrena a los modelos para responder con confianza a todas las preguntas, ya sea que tengan evidencia sólida o estén simplemente lanzando una moneda al aire.
Esta sobreconfianza tiene serias implicaciones. Cuando se implementan modelos en campos como la medicina, el derecho o las finanzas —donde las decisiones se basan en las salidas de la IA— un sistema que expresa alta confianza sin considerar su verdadera certeza se vuelve poco fiable y difícil de detectar desde fuera. Un modelo que afirma estar «95% seguro» cuando solo acierta la mitad del tiempo es más peligroso que uno que simplemente da respuestas incorrectas, ya que los usuarios no tienen señales claras para buscar una segunda opinión.
«El enfoque estándar de entrenamiento es simple y poderoso, pero no le da al modelo ningún incentivo para expresar incertidumbre o decir 'no sé'», explica Mehul Damani, estudiante de doctorado del MIT y coautor principal del estudio. «Por lo tanto, el modelo aprende naturalmente a adivinar cuando no está seguro». RLCR aborda este problema añadiendo un único término a la función de recompensa: una puntuación Brier, una medida bien establecida que penaliza la discrepancia entre la confianza expresada por el modelo y su precisión real.
Durante el entrenamiento, los modelos aprenden a razonar tanto sobre el problema como sobre su propia incertidumbre, produciendo simultáneamente una respuesta y una estimación de confianza. Las respuestas incorrectas presentadas con excesiva confianza son penalizadas al igual que aquellas correctas pero innecesariamente inciertas.
Los resultados respaldan esta estrategia: el equipo demostró formalmente que este tipo de estructura de recompensas garantiza modelos precisos y bien calibrados. Luego probaron el enfoque en un modelo con 7 mil millones de parámetros a través de diversos benchmarks relacionados con preguntas y matemáticas, incluyendo seis conjuntos de datos que el modelo nunca había visto antes.
Los resultados mostraron un patrón consistente. El entrenamiento estándar por RL degradó activamente la calibración comparado con el modelo base, empeorando así la capacidad del modelo para estimar su propia incertidumbre. En cambio, RLCR invirtió ese efecto, mejorando sustancialmente la calibración sin pérdida alguna en precisión. Además, este método superó enfoques posteriores al hecho donde se entrena un clasificador separado para asignar puntuaciones de confianza después del hecho.
Isha Puri, otra estudiante del MIT y coautora principal del estudio, señala: «Lo sorprendente es que el entrenamiento ordinario por RL no solo falla en ayudar a la calibración; también perjudica activamente». El equipo también demostró que las estimaciones de confianza generadas por RLCR son útiles durante la inferencia. Al seleccionar respuestas basadas en la mayor autoconfianza reportada o ponderar votos según dicha confianza dentro de un esquema mayoritario mejora tanto la precisión como la calibración conforme aumenta el poder computacional.
Además, hallazgos adicionales sugieren que reflexionar sobre la incertidumbre tiene valor intrínseco. Los investigadores entrenaron clasificadores utilizando las salidas del modelo y encontraron que incluir el razonamiento explícito sobre incertidumbres mejoraba notablemente el rendimiento del clasificador, especialmente para modelos más pequeños.
Aparte de Damani y Puri, otros autores del artículo incluyen a Stewart Slocum, Idan Shenfeld, Leshem Choshen, así como los autores senior Jacob Andreas y Yoon Kim.