iymagazine.es

I+D Universitario

Investigadores del MIT desarrollan una nueva técnica para mejorar la comprensión de modelos de lenguaje grandes
Ampliar

Investigadores del MIT desarrollan una nueva técnica para mejorar la comprensión de modelos de lenguaje grandes

Por José Enrique González
x
jenriqueiymagazinees/8/8/19
jueves 18 de diciembre de 2025, 16:00h
Última actualización: viernes 19 de diciembre de 2025, 13:41h

Investigadores del MIT-IBM Watson AI Lab han desarrollado "PaTH Attention", una técnica que mejora el seguimiento de estados y razonamiento secuencial en modelos de lenguaje, superando limitaciones de métodos anteriores.

Investigadores del MIT-IBM Watson AI Lab han desarrollado una nueva arquitectura que mejora el seguimiento del estado y el razonamiento secuencial en los modelos de lenguaje de gran tamaño (LLMs) a través de textos extensos. Este avance es crucial, ya que la mayoría de los lenguajes dependen de la posición de las palabras y la estructura de las oraciones para extraer significado.

Por ejemplo, la frase “El gato se sentó en la caja” tiene un sentido completamente diferente a “La caja estaba sobre el gato”. A medida que se avanza en un texto largo, como un documento financiero o una novela, la sintaxis puede evolucionar. Además, en programación, seguir variables o instrucciones con acciones condicionales son ejemplos de cambios de estado y razonamiento secuencial que se espera que los sistemas de inteligencia artificial más avanzados manejen con eficacia.

Nuevas limitaciones en mecanismos de atención

A pesar de su potencial, el mecanismo de atención presente en los transformadores —la arquitectura predominante utilizada en los LLMs— presenta limitaciones teóricas y empíricas para abordar estas capacidades. Este mecanismo permite que un LLM revise partes anteriores de una consulta o documento y, basado en su entrenamiento, determine qué detalles son más relevantes. Sin embargo, no comprende el orden de las palabras; simplemente “ve” todas las entradas simultáneamente.

Para resolver esto, se han desarrollado técnicas que codifican información posicional. La principal técnica utilizada hasta ahora es la codificación posicional rotativa (RoPE), que solo considera la distancia relativa entre tokens en una secuencia y no toma en cuenta los datos específicos de entrada. Esto implica que palabras separadas por cuatro posiciones recibirán la misma rotación matemática fija, independientemente del contexto.

PaTH Attention: una solución innovadora

La investigación liderada por el MIT ha dado lugar a una técnica conocida como “PaTH Attention”, que hace que la información posicional sea adaptable y consciente del contexto. En lugar de asignar a cada palabra una rotación fija basada en su distancia relativa, PaTH Attention trata las palabras intermedias como un camino compuesto por pequeñas transformaciones dependientes de datos.

Cada transformación utiliza una operación matemática llamada reflexión de Householder, actuando como un pequeño espejo que se ajusta según el contenido del token por el que pasa. Este enfoque permite al sistema modelar cómo cambia el significado a lo largo del camino entre palabras, proporcionando así una especie de “memoria posicional”. Los investigadores también desarrollaron un algoritmo eficiente desde el punto de vista del hardware para calcular más eficazmente las puntuaciones de atención entre pares de tokens.

Resultados prometedores y aplicaciones futuras

Los investigadores exploraron el rendimiento de PaTH Attention en tareas sintéticas y del mundo real, incluyendo pruebas largas y entrenamiento completo de LLMs. Se evaluó su capacidad para seguir comandos recientes a pesar de pasos distractores y pruebas multietapa, donde superó métodos estándar como RoPE.

Yoon Kim, autor principal del estudio y profesor asociado en el Departamento de Ingeniería Eléctrica e Informática (EECS), destacó: “Nuestro nuevo enfoque logró superar los mecanismos existentes mientras mantenía su eficiencia”. Además, hay expectativas sobre cómo estos tipos de codificaciones posicionales podrían mejorar aún más el rendimiento en dominios estructurados como la biología.

Un enfoque cognitivo mejorado

Los investigadores también examinaron cómo PaTH Attention podría imitar mejor la cognición humana al ignorar información antigua o menos relevante al tomar decisiones. Combinando PaTH Attention con otro esquema conocido como Forgetting Transformer (FoX), lograron crear un sistema capaz de ponderar selectivamente información dependiendo del contexto.

Kaiyue Wen y otros coautores colaboraron estrechamente con Kim para presentar estos hallazgos en la Conferencia sobre Sistemas Neurales (NeurIPS). Este trabajo representa un esfuerzo más amplio hacia el desarrollo del “próximo gran avance” en inteligencia artificial, buscando construir bloques generales aplicables a diversos dominios.

Valora esta noticia
0
(0 votos)
¿Te ha parecido interesante esta noticia?    Si (0)    No(0)

+
0 comentarios