Los modelos de lenguaje de gran tamaño (LLMs), como ChatGPT, han demostrado su capacidad para redactar ensayos o planificar menús de forma casi instantánea. Sin embargo, hasta hace poco, era común que estos sistemas se enfrentaran a dificultades, especialmente en problemas matemáticos y razonamientos complejos. Ahora, un nuevo avance ha permitido que estos modelos mejoren significativamente en estas áreas.
Investigadores del Instituto McGovern de Investigación Cerebral del MIT han desarrollado una nueva generación de LLMs conocidos como modelos de razonamiento. Estos modelos, al igual que los humanos, requieren tiempo para resolver problemas complejos. En un estudio publicado en la revista PNAS, los científicos han encontrado que el esfuerzo mental necesario para estos modelos es comparable al que demandan los seres humanos al enfrentar desafíos similares.
Un enfoque humano en el razonamiento artificial
Bajo la dirección de Evelina Fedorenko, profesora asociada de ciencias cognitivas y cerebrales, el equipo concluyó que los modelos de razonamiento adoptan un enfoque similar al pensamiento humano. Fedorenko aclara que esta similitud no fue intencionada: “Quienes desarrollan estos modelos no se preocupan por replicar el pensamiento humano; su objetivo es crear sistemas que funcionen eficazmente en diversas condiciones y produzcan respuestas correctas”. Esta convergencia entre ambos tipos de razonamiento resulta sorprendente.
Los nuevos modelos de razonamiento son redes neuronales artificiales, herramientas computacionales diseñadas para aprender a procesar información a partir de datos y problemas específicos. Estas redes han mostrado un rendimiento notable en tareas donde las redes neuronales del cerebro humano también sobresalen. A pesar de esto, algunos científicos sostenían que la inteligencia artificial aún no estaba lista para abordar aspectos más complejos del razonamiento humano.
Avances en la resolución de problemas complejos
“Hasta hace poco, yo era escéptica sobre la capacidad de estos modelos para realizar razonamientos complejos”, comenta Fedorenko. “Sin embargo, con la aparición de estos nuevos modelos, hemos observado mejoras significativas en tareas como resolver problemas matemáticos y escribir código”. Andrea Gregor de Varda, investigador postdoctoral en el laboratorio de Fedorenko, explica que los modelos abordan los problemas paso a paso. “Se comprendió que necesitaban más espacio para llevar a cabo los cálculos necesarios”, asegura.
Para optimizar este proceso, se utiliza el aprendizaje por refuerzo durante la capacitación de los modelos. Se recompensa a los sistemas por respuestas correctas y se les penaliza por las incorrectas. “Los modelos exploran el espacio del problema por sí mismos”, señala De Varda. “Las acciones que conducen a recompensas positivas se refuerzan, lo que aumenta la probabilidad de obtener soluciones correctas”. Aunque este enfoque puede hacer que tarden más en llegar a una respuesta comparado con sus predecesores, sus resultados son mucho más precisos.
Análisis comparativo entre humanos y máquinas
El tiempo necesario para resolver problemas complejos ya sugiere un paralelismo con el pensamiento humano: si se exige a una persona resolver un problema difícil instantáneamente, es probable que fracase también. De Varda decidió investigar esta relación más a fondo al someter tanto a modelos de razonamiento como a voluntarios humanos a un conjunto idéntico de problemas.
Este análisis incluyó medir el tiempo exacto que tardaban las personas en responder cada pregunta. Para los modelos, se optó por rastrear tokens —partes del proceso interno del modelo— dado que medir el tiempo real no sería adecuado debido a las variaciones en hardware informático. “Estos tokens son parte del proceso interno y no están destinados al usuario”, explica De Varda.
Parecidos sorprendentes en la resolución de problemas
Tanto humanos como modelos fueron desafiados con siete tipos diferentes de problemas, desde aritmética numérica hasta razonamiento intuitivo. La dificultad aumentaba conforme pasaba el tiempo necesario para resolverlos: cuanto más complejo era un problema, más tokens generaba el modelo mientras buscaba su solución.
Los investigadores notaron una coincidencia notable: las categorías de problemas que resultaban más difíciles para los humanos eran las mismas que requerían más tokens para los modelos. Por ejemplo, los problemas aritméticos eran menos exigentes, mientras que aquellos relacionados con el desafío "ARC", donde pares de cuadrículas coloreadas representan transformaciones a aplicar sobre nuevos objetos, resultaron ser los más costosos tanto para personas como para máquinas.
Aunque los investigadores destacan esta similitud entre ambos tipos de razonamiento, subrayan que eso no implica necesariamente que los modelos estén recreando la inteligencia humana. Aún persiste la curiosidad sobre si utilizan representaciones similares a las del cerebro humano y cómo estas se traducen en soluciones efectivas ante diversos desafíos cognitivos.