Un grupo de investigadores del MIT ha desarrollado una innovadora técnica que permite a los modelos de lenguaje de gran tamaño (LLMs) optimizar su capacidad de razonamiento al responder preguntas complejas. Este avance busca mejorar la precisión de las respuestas al permitir que el modelo invierta más tiempo en la búsqueda de soluciones adecuadas.
A menudo, los enfoques tradicionales asignan un presupuesto computacional fijo para cada problema, sin tener en cuenta su complejidad. Esto puede llevar a que los LLMs desperdicien recursos en preguntas sencillas o, por el contrario, se vean incapaces de abordar problemas más intrincados que requieren un mayor esfuerzo cognitivo.
Nueva metodología para la asignación de recursos computacionales
Para solucionar esta limitación, los investigadores del MIT han introducido un método que ajusta dinámicamente el esfuerzo computacional según la dificultad de la pregunta y la probabilidad de que cada solución parcial conduzca a una respuesta correcta. Los resultados indican que este enfoque permite a los LLMs utilizar hasta un 50% menos de recursos en comparación con métodos existentes, logrando niveles similares de precisión en preguntas con diferentes grados de dificultad.
Además, este nuevo método facilita que modelos más pequeños y menos intensivos en recursos puedan desempeñarse tan bien como sus contrapartes más grandes en problemas complejos. Al mejorar tanto la fiabilidad como la eficiencia de los LLMs, especialmente en tareas que requieren razonamiento complejo, esta técnica podría contribuir a reducir el consumo energético de los sistemas de inteligencia artificial generativa y ampliar su uso en aplicaciones críticas y sensibles al tiempo.
El impacto del costo computacional
Según Navid Azizan, profesor asistente en el Departamento de Ingeniería Mecánica y el Instituto para Datos, Sistemas y Sociedad (IDSS), "el costo computacional del razonamiento se ha convertido rápidamente en un importante cuello de botella para los proveedores de modelos avanzados". Este enfoque adaptativo permite a los modelos identificar qué no saben y dedicar más recursos a resolver los problemas más difíciles.
El equipo también incluye al autor principal Young-Jin Park, estudiante graduado del IDSS/MechE; Kristjan Greenewald, científico investigador en el MIT-IBM Watson AI Lab; Kaveh Alim, estudiante graduado del IDSS; y Hao Wang, también investigador en el MIT-IBM Watson AI Lab. La investigación se presentará esta semana en la Conferencia sobre Sistemas Neurales de Procesamiento de Información.
Estrategias mejoradas para el razonamiento
Una técnica reciente conocida como escalado durante la inferencia permite a un LLM dedicar más tiempo a razonar sobre problemas difíciles. Mediante este proceso, el modelo puede generar múltiples intentos de solución simultáneamente o explorar diferentes caminos lógicos antes de seleccionar las opciones más prometedoras.
Los investigadores han implementado un modelo adicional denominado modelo de recompensa del proceso (PRM), que evalúa cada posible solución o camino lógico. A través de este sistema, el LLM puede identificar cuáles son las alternativas más viables para alcanzar una respuesta correcta.
A diferencia del enfoque típico que asigna una cantidad fija de cálculo, el método propuesto por los investigadores ajusta dinámicamente el número de soluciones potenciales o pasos lógicos basándose en su probabilidad de éxito mientras aborda un problema. Como señala Wang, "este es un reflejo del modo en que los humanos resuelven problemas".
Calibración para una mayor precisión
No obstante, uno de los desafíos identificados es que muchos PRMs tienden a sobreestimar las probabilidades de éxito del modelo. Para mitigar esto, los investigadores desarrollaron un método de calibración que permite generar una gama amplia de puntuaciones probabilísticas, proporcionando estimaciones más fiables sobre la incertidumbre asociada con cada solución potencial.
Con un PRM bien calibrado, su marco adaptativo puede reducir efectivamente la carga computacional sin comprometer la precisión. En pruebas comparativas con métodos estándar durante tareas matemáticas complejas, lograron utilizar menos recursos mientras mantenían una precisión similar.
"La belleza de nuestro enfoque radica en que esta adaptación ocurre sobre la marcha", afirma Greenewald. De cara al futuro, el equipo planea aplicar esta técnica a otras áreas como generación automática de código y agentes inteligentes.
"Los empleados humanos aprenden mientras trabajan", concluye Akash Srivastava, director y arquitecto jefe del Core AI en IBM Software. Esta investigación representa un paso significativo hacia agentes capaces no solo de operar con seguridad sino también adaptarse a nuevas situaciones y ofrecer resultados consistentes a gran escala.