Universidad

Investigadores identifican una falla en los modelos de lenguaje que afecta su fiabilidad

investigación MIT

José Enrique González | Jueves 27 de noviembre de 2025

Investigadores del MIT descubren que los modelos de lenguaje grandes (LLMs) pueden asociar patrones sintácticos erróneos con temas específicos, comprometiendo su fiabilidad en tareas críticas y generando riesgos de seguridad.



Un estudio realizado por investigadores del MIT ha revelado que los modelos de lenguaje de gran tamaño (LLMs) pueden aprender lecciones erróneas, lo que compromete su fiabilidad. En lugar de basar sus respuestas en un conocimiento sólido del dominio, estos modelos a veces responden utilizando patrones gramaticales que han aprendido durante su entrenamiento. Esta tendencia puede llevar a fallos inesperados cuando se enfrentan a nuevas tareas.

Los científicos descubrieron que los LLMs pueden asociar incorrectamente ciertos patrones de oración con temas específicos. Así, un modelo podría ofrecer una respuesta convincente al reconocer frases familiares, en lugar de comprender realmente la pregunta planteada. Este hallazgo es preocupante, ya que incluso los modelos más avanzados no son inmunes a este tipo de errores.

La implicación de esta limitación es significativa: la fiabilidad de los LLMs se ve mermada en tareas críticas como la gestión de consultas de clientes, la elaboración de resúmenes clínicos y la generación de informes financieros. Además, existe un riesgo potencial para la seguridad; actores malintencionados podrían aprovechar esta vulnerabilidad para manipular a los LLMs y hacer que generen contenido dañino, incluso cuando se han implementado salvaguardias para evitar tales respuestas.

Desarrollo de procedimientos para evaluar la fiabilidad

Tras identificar este fenómeno y explorar sus implicaciones, los investigadores desarrollaron un procedimiento de evaluación para medir la dependencia de un modelo en estas correlaciones incorrectas. Este método podría ayudar a los desarrolladores a mitigar el problema antes de implementar los LLMs en entornos reales.

Marzyeh Ghassemi, profesora asociada en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT y autora principal del estudio, señala: “Esto es un subproducto de cómo entrenamos los modelos, pero ahora se utilizan en dominios críticos para la seguridad que van mucho más allá de las tareas que crearon estos modos de fallo sintáctico.”

Ghassemi trabajó junto a coautores como Chantal Shaib, estudiante graduada en Northeastern University y estudiante visitante en el MIT; Vinith Suriyakumar, también estudiante graduado del MIT; Levent Sagun, científico investigador en Meta; y Byron Wallace, profesor asociado en Northeastern University. Un artículo sobre este trabajo será presentado en la Conferencia sobre Sistemas Neurales.

El papel crucial de la sintaxis

Los LLMs son entrenados con una vasta cantidad de texto extraído de internet. Durante este proceso formativo, aprenden a entender las relaciones entre palabras y frases, conocimiento que utilizan posteriormente al responder preguntas. Investigaciones anteriores habían demostrado que estos modelos capturan patrones relacionados con las partes del habla que suelen aparecer juntas en los datos utilizados para su entrenamiento.

Estos patrones son conocidos como “plantillas sintácticas”. Para responder adecuadamente a preguntas dentro de un dominio específico, los LLMs requieren tanto comprensión sintáctica como semántica.

Por ejemplo, Shaib explica: “En el ámbito informativo hay un estilo particular de redacción. Así que el modelo no solo está aprendiendo la semántica; también está asimilando cómo deben estructurarse las oraciones para seguir ese estilo específico.” Sin embargo, el estudio reveló que los LLMs tienden a asociar estas plantillas sintácticas con dominios concretos.

Error al interpretar preguntas complejas

A través de experimentos diseñados específicamente para observar este fenómeno, los investigadores encontraron que incluso cuando cambiaban palabras por sinónimos o antónimos manteniendo la misma estructura sintáctica, muchos LLMs continuaban proporcionando respuestas correctas aunque las preguntas fueran absurdas.

Cambiando el patrón gramatical utilizado pero conservando el significado subyacente muchas veces resultaba en respuestas incorrectas por parte del modelo. Esta conducta fue observada en modelos preentrenados como GPT-4 y Llama.

Atraídos por las implicaciones más amplias del descubrimiento, los investigadores examinaron si era posible manipular esta característica para obtener respuestas perjudiciales incluso desde LLMs entrenados para rechazar tales solicitudes. Al formular preguntas usando plantillas sintácticas asociadas con conjuntos de datos “seguros”, pudieron engañar al modelo para generar contenido dañino.

Nuevas estrategias ante vulnerabilidades

Suriyakumar enfatiza: “Es evidente que necesitamos defensas más robustas para abordar vulnerabilidades en LLMs.” Aunque este trabajo no exploró estrategias específicas para mitigar el problema identificado, sí desarrollaron una técnica automática para evaluar cuán dependientes son estos modelos respecto a correlaciones incorrectas entre sintaxis y dominio.

Dicha evaluación puede ser clave para ayudar a los desarrolladores a abordar proactivamente esta limitación antes mencionada, mejorando así tanto la seguridad como el rendimiento general del modelo.

Mientras miran hacia adelante, los investigadores planean estudiar estrategias potenciales para mitigar estos problemas mediante el enriquecimiento del conjunto de datos utilizado durante el entrenamiento. También están interesados en investigar este fenómeno dentro de modelos diseñados específicamente para resolver tareas complejas mediante razonamiento.

Jessy Li, profesora asociada en la Universidad de Texas en Austin y ajena al estudio concluye: “Este trabajo resalta la importancia del conocimiento lingüístico y análisis dentro de la investigación sobre seguridad en LLMs.” La financiación del estudio proviene parcialmente del programa Bridgewater AIA Labs Fellowship y otras instituciones destacadas como la National Science Foundation y Google Research Award.

TEMAS RELACIONADOS:


Noticias relacionadas