iymagazine.es

Investigación IA

Estudio de la UNED cuestiona la comprensión real de los modelos de lenguaje en IA

Estudio de la UNED cuestiona la comprensión real de los modelos de lenguaje en IA

Por Gonzalo Gómez-del Estal
x
gonzaloiymagazinees/7/7/18
viernes 06 de febrero de 2026, 10:31h
Actualizado el: 06 de febrero de 2026, 11:42h

Un estudio de la UNED cuestiona la capacidad de razonamiento de los modelos de lenguaje, sugiriendo que muchos aciertos son resultado de memorización en lugar de comprensión real.

Los grandes modelos de lenguaje han emergido como intermediarios esenciales en el acceso al conocimiento. Su habilidad para responder a preguntas en ámbitos académicos, jurídicos y técnicos parece indicar una comprensión profunda. Sin embargo, un reciente estudio liderado por investigadoras de la UNED plantea una inquietante interrogante: ¿hasta qué punto estos aciertos son fruto de un razonamiento genuino y no simplemente de la memorización de patrones?

El trabajo, realizado por el departamento de Lenguajes y Sistemas Informáticos, ha sido publicado en IEEE bajo el título: Sobre los límites del razonamiento en LLM: evidencia de contaminación, traducción y modificación de respuestas en pruebas de opción múltiple. Este estudio propone una metodología para diferenciar sistemáticamente entre dos capacidades que suelen confundirse al evaluar la inteligencia artificial: recordar respuestas previamente vistas y razonar eliminando alternativas incorrectas.

Cambio en la búsqueda: implicaciones del uso de IA

La investigación se sitúa en un contexto donde millones de usuarios han reemplazado los buscadores tradicionales por sistemas conversacionales. Según Eva Sánchez Salido, investigadora predoctoral del Departamento de Lenguajes y Sistemas Informáticos de la UNED y coautora del estudio, este cambio conlleva importantes consecuencias.

“Cuando se utiliza un chatbot (como ChatGPT, Gemini o Claude) para consultas que antes se hacían en un buscador, la respuesta puede generarse de dos maneras”, explica. “O bien el modelo responde con información que recuerda de su entrenamiento, o bien consulta internet antes de ofrecer una respuesta”.

En el primer escenario, advierte, el sistema carece de acceso a información reciente y es más propenso a cometer errores si la actualidad es relevante. En el segundo caso, aunque el proceso es más fiable, no es infalible. “Aún existe la posibilidad de que se invente una respuesta, pero es mucho más probable que sea correcta”, señala.

Evaluación cuestionada: los riesgos de los benchmarks públicos

Un aspecto central del estudio critica los sistemas actuales de evaluación. Los benchmarks, conjuntos de preguntas y respuestas utilizados para medir el rendimiento de los modelos, suelen ser públicos y ampliamente accesibles.

Sánchez Salido ilustra esta problemática con una metáfora sencilla: “Cuando los datos son públicos, el modelo actúa como un estudiante que ya ha visto las respuestas antes del examen. La evaluación mide su capacidad para memorizarlas, no su verdadero conocimiento sobre la materia”. Este fenómeno, conocido como data contamination, implica que altos resultados en pruebas estándar no garantizan necesariamente una comprensión real.

A fin de abordar esta limitación, el estudio combina benchmarks públicos como MMLU con conjuntos privados diseñados por la UNED que los modelos no han podido consultar durante su entrenamiento.

Diferencias lingüísticas: ¿un desafío para la IA?

El trabajo también investiga cómo se generaliza entre idiomas, un tema crucial para contextos educativos y administrativos fuera del ámbito anglófono. Los resultados revelan una tendencia clara: “En todos nuestros experimentos encontramos mayor fiabilidad en inglés que en español; sin embargo, la diferencia varía considerablemente entre modelos y áreas del conocimiento”, apunta Eva.

Aunque en los sistemas más avanzados esta brecha disminuye, sigue siendo notable en ciertas disciplinas. Además, hay un patrón evidente: “En áreas relacionadas con la cultura y sociedad españolas, como derecho o geografía nacional, todos los modelos tienden a responder significativamente peor”. Este hallazgo resalta que tener fluidez lingüística no equivale a poseer una comprensión contextual profunda.

Nuevas estrategias para mejorar el razonamiento artificial

El núcleo central del estudio radica en la reformulación NOTO. En vez de proporcionar la respuesta correcta entre las opciones disponibles, esta se sustituye por “Ninguna de las otras respuestas”. El impacto es inmediato.

“Responder a una pregunta de opción múltiple puede hacerse mediante simple reconocimiento de patrones”, aclara Eva. “Pero reemplazar la respuesta correcta por ‘ninguna de las otras’ obliga a verificar que todas las demás opciones son incorrectas”.

Ese proceso exige un razonamiento eliminativo más cercano al humano. Y aquí es donde los modelos fallan. “Las caídas en rendimiento son significativas, lo cual sugiere que muchos modelos aparentan razonar pero solo están reconociendo patrones familiares”, concluye la experta. Los mejores modelos también suspenden ante este desafío. La conclusión es clara: los benchmarks tradicionales podrían estar sobrestimando realmente la capacidad cognitiva efectiva de la IA.

"No basta con aumentar el tamaño": propuestas innovadoras para mejorar AI

A pesar de la creencia común que sostiene que incrementar el tamaño del modelo es la solución definitiva, este estudio propone otra dirección. “Nuestros resultados indican que no es suficiente crear modelos más grandes”, afirma Eva. “Se requieren estrategias avanzadas para su entrenamiento, como el aprendizaje por refuerzo con recompensas verificables”.

No obstante, mejorar no depende únicamente del entrenamiento; también requiere repensar cómo evaluamos lo que realmente comprenden estos modelos. Es esencial incorporar pruebas menos previsibles y más alineadas con situaciones reales.

El mensaje final del estudio es tanto técnico como relevante para toda la sociedad: acertar no siempre implica entender. Distinguir entre ambas dimensiones será vital en un mundo donde cada vez delegamos más decisiones —ya sean académicas, profesionales o cotidianas— a sistemas basados en inteligencia artificial.

Valora esta noticia
0
(0 votos)
¿Te ha parecido interesante esta noticia?    Si (0)    No(0)

+
0 comentarios