Los modelos de lenguaje de razonamiento, conocidos como LLMs, están diseñados para abordar problemas complejos dividiéndolos en pasos más pequeños. Estos poderosos modelos son especialmente eficaces en tareas desafiantes como la programación avanzada y la planificación en múltiples etapas.
No obstante, el desarrollo de estos modelos de razonamiento requiere una cantidad considerable de computación y energía debido a las ineficiencias presentes en su proceso de entrenamiento. Mientras algunos procesadores de alto rendimiento trabajan continuamente en consultas complicadas, otros permanecen inactivos.
Un equipo de investigadores del MIT ha descubierto una forma innovadora de aprovechar este tiempo de inactividad computacional para acelerar de manera eficiente el entrenamiento de los modelos de razonamiento.
Acelerando el entrenamiento con un nuevo método
El nuevo enfoque consiste en entrenar automáticamente un modelo más pequeño y rápido que predice las salidas del modelo más grande, que a su vez verifica estas predicciones. Este proceso reduce la carga del modelo de razonamiento, acelerando así el entrenamiento.
La clave de este sistema radica en su capacidad para entrenar y desplegar el modelo más pequeño de manera adaptativa, activándose únicamente cuando ciertos procesadores están inactivos. Al aprovechar recursos computacionales que, de otro modo, se desperdiciarían, se logra acelerar el entrenamiento sin incurrir en costos adicionales.
Las pruebas realizadas con múltiples LLMs han demostrado que este método puede duplicar la velocidad del entrenamiento mientras mantiene la precisión. Esto podría reducir los costos y aumentar la eficiencia energética en el desarrollo de LLMs avanzados para aplicaciones como la previsión de tendencias financieras o la detección de riesgos en redes eléctricas.
Un avance significativo en la eficiencia
“La gente busca modelos capaces de manejar tareas más complejas. Si ese es el objetivo del desarrollo del modelo, debemos priorizar la eficiencia. Hemos encontrado una solución sin pérdidas a este problema y desarrollado un sistema completo que puede ofrecer aumentos significativos en la velocidad”, afirma Qinghao Hu, postdoctorado del MIT y coautor principal del estudio sobre esta técnica.
Acompañan a Hu en esta investigación otros autores destacados como Shang Yang, estudiante graduado en ingeniería eléctrica e informática; Junxian Guo; y Song Han, profesor asociado en EECS y miembro del Laboratorio de Investigación Electrónica. La investigación será presentada en la Conferencia Internacional ACM sobre Soporte Arquitectónico para Lenguajes de Programación y Sistemas Operativos.
Bottleneck en el entrenamiento
Los desarrolladores buscan que los LLMs sean capaces de identificar y corregir errores en su proceso crítico de pensamiento, lo que les permite resolver consultas complejas que podrían confundir a un LLM estándar.
Para enseñar esta habilidad, se entrena a los LLMs utilizando una técnica llamada aprendizaje por refuerzo (RL). El modelo genera múltiples respuestas potenciales a una consulta, recibe recompensas por las mejores opciones y se actualiza basándose en las respuestas más acertadas. Este ciclo se repite miles de veces durante el aprendizaje.
Estrategias para optimizar tiempos
No obstante, los investigadores han observado que el proceso conocido como rollout —que implica generar múltiples respuestas— puede consumir hasta un 85% del tiempo total necesario para el entrenamiento por refuerzo. “Actualizar el modelo —que es realmente la parte ‘formativa’— consume muy poco tiempo comparado con esto”, explica Hu.
Este cuello de botella ocurre porque todos los procesadores deben finalizar sus respuestas antes de avanzar al siguiente paso. Esto provoca que algunos procesadores esperen a otros que están trabajando en respuestas más largas.
"Nuestro objetivo era transformar este tiempo inactivo en aceleración sin costos adicionales", añade Hu.
Sistema flexible para mejorar resultados
Los investigadores decidieron utilizar una técnica existente llamada decodificación especulativa para agilizar el proceso. Esta técnica implica entrenar un modelo más pequeño llamado "drafter" que adivina rápidamente las salidas futuras del modelo más grande. El modelo mayor verifica estas adivinanzas, utilizando las respuestas aceptadas para el entrenamiento.
A diferencia del enfoque tradicional donde el drafter es estático, lo cual no es viable para RL debido a las constantes actualizaciones del modelo durante su formación, los investigadores desarrollaron un sistema flexible denominado “Taming the Long Tail” (TLT).
TLT incluye un entrenador adaptativo para el drafter que utiliza el tiempo libre en procesadores inactivos para entrenarlo sobre la marcha, manteniéndolo alineado con el modelo objetivo sin requerir recursos computacionales adicionales.
Perspectivas futuras y aplicaciones potenciales
A medida que continúan las pruebas con TLT utilizando conjuntos de datos del mundo real, se ha logrado acelerar el entrenamiento entre un 70% y un 210%, preservando la precisión del modelo. Además, se prevé que el pequeño drafter pueda ser utilizado eficientemente como un subproducto adicional.
En adelante, los investigadores planean integrar TLT en diversos tipos de marcos de entrenamiento e inferencia y explorar nuevas aplicaciones del aprendizaje por refuerzo que puedan beneficiarse con este enfoque innovador.
"A medida que el razonamiento se convierte cada vez más en la carga principal detrás de la demanda por inferencias, TLT es una gran solución para enfrentar los cuellos de botella computacionales asociados al entrenamiento", concluye Han.