Los modelos de lenguaje (LMs) han avanzado notablemente en tareas como la generación de imágenes, la respuesta a preguntas triviales y la resolución de problemas matemáticos simples. Sin embargo, el razonamiento humano sigue siendo un desafío significativo. Por ejemplo, al intentar resolver un Sudoku, donde se deben colocar los números del uno al nueve en una cuadrícula de nueve por nueve, los LMs suelen fallar o actuar de manera ineficiente, aunque pueden verificar si las soluciones presentadas son correctas.
A pesar de su capacidad para abordar diversos problemas, estos modelos enfrentan dificultades con solicitudes abiertas que requieren seguir reglas estrictas. En lugar de resolver estos desafíos directamente, los LMs son más eficaces al ofrecer consejos sobre cómo abordarlos. Esto se debe a que la resolución activa de problemas implica considerar múltiples opciones mientras se cumplen ciertas restricciones. Los modelos pequeños no logran hacerlo de manera confiable por sí solos; aunque los modelos grandes (LLMs) pueden tener éxito en algunas ocasiones, consumen mucho tiempo y recursos computacionales.
Un enfoque colaborativo para mejorar el rendimiento
Ante esta problemática, investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL) han desarrollado un enfoque colaborativo. En este sistema, un LLM se encarga de la planificación y distribuye las tareas entre modelos más pequeños. Este método permite que los LMs pequeños ofrezcan respuestas más precisas que los LLMs líderes, como el GPT-4o, acercándose a la precisión de sistemas avanzados como o1, pero con mayor eficiencia. El marco denominado “DisCIPL” (Distribución de Restricciones mediante Programación Inferencial con Modelos de Lenguaje) guía a los modelos "seguidores" hacia respuestas precisas en tareas como redactar textos breves, listas de compras con presupuestos y itinerarios de viaje.
El funcionamiento interno de DisCIPL es similar a contratar una empresa para realizar un trabajo específico. Se proporciona a un modelo "jefe" una solicitud que evalúa cuidadosamente antes de transmitir instrucciones claras a los modelos más pequeños. Además, corrige las salidas de los LMs seguidores cuando es necesario, mejorando así la calidad del resultado final.
Innovaciones en programación y eficiencia energética
La comunicación entre el modelo líder y sus seguidores se realiza mediante un lenguaje común: un lenguaje de programación diseñado para controlar LMs llamado “LLaMPPL”. Este programa permite codificar reglas específicas que orientan al modelo hacia el resultado deseado. Por ejemplo, se puede utilizar LLaMPPL para generar código sin errores, incorporando las reglas pertinentes dentro de sus instrucciones.
Gabriel Grand, estudiante de doctorado en MIT y autor principal del estudio sobre este trabajo, destaca que DisCIPL permite que los LMs se guíen mutuamente hacia las mejores respuestas, aumentando así su eficiencia general. “Estamos trabajando para mejorar la eficiencia inferencial de los LMs, especialmente en aplicaciones modernas que implican generar resultados sujetos a restricciones”, señala Grand.
Resultados sorprendentes y futuras aplicaciones
A pesar del predominio aparente de los modelos más grandes en tareas complejas, DisCIPL ofrece una perspectiva innovadora: combinar las fortalezas de modelos más pequeños puede resultar en mejoras significativas en eficiencia sin sacrificar resultados. Los investigadores sugieren que es posible integrar numerosos LMs dentro del marco DisCIPL independientemente de su tamaño.
En experimentos relacionados con escritura y razonamiento, utilizaron GPT-4o como su modelo planificador para coordinar varios modelos “Llama-3.2-1B” desarrollados por Meta. Esta colaboración demostró ser competitiva frente a otros enfoques similares: un sistema basado solo en seguidores alimentado por Llama-3.2-1B y GPT-4o operando individualmente.
Eficiencia económica y rendimiento superior
Los resultados mostraron que DisCIPL no solo logra seguir reglas explícitas con coherencia sino que también resulta significativamente más económico que otros sistemas avanzados. Mientras que sistemas como o1 realizan razonamientos textuales complejos, DisCIPL lo hace escribiendo código Python más compacto. En términos prácticos, se observó una reducción del 40% en el tiempo necesario para razonar y un ahorro del 80% en costos comparado con o1.
Las investigaciones futuras incluirán ampliar este marco hacia enfoques recursivos completos donde el mismo modelo pueda actuar tanto como líder como seguidor. Además, planean aplicar DisCIPL a tareas matemáticas complejas y explorar su capacidad para satisfacer preferencias menos definidas por parte del usuario.