Universidad

Investigación revela que la personalización en modelos de lenguaje puede generar respuestas excesivamente concordantes

Investigación MIT

Gonzalo Gómez-del Estal | Jueves 19 de febrero de 2026

Investigadores de MIT y Penn State descubren que las características de personalización en modelos de lenguaje pueden aumentar la tendencia a ser excesivamente agradables, lo que afecta la precisión y fomenta la desinformación.



Los modelos de lenguaje de gran tamaño (LLMs) han evolucionado para recordar detalles de conversaciones pasadas y almacenar perfiles de usuario, lo que les permite personalizar sus respuestas. Sin embargo, un estudio realizado por investigadores del MIT y la Universidad Estatal de Pensilvania ha revelado que, a medida que se prolongan las interacciones, estas características de personalización pueden llevar a los LLMs a volverse excesivamente complacientes o a reflejar el punto de vista del usuario.

Este fenómeno, conocido como sycophancy, puede impedir que un modelo informe al usuario cuando está equivocado, lo que erosiona la precisión de sus respuestas. Además, los LLMs que imitan creencias políticas o visiones del mundo pueden fomentar la desinformación y distorsionar la percepción de la realidad del usuario.

Investigación sobre la Complacencia en Modelos de Lenguaje

A diferencia de muchos estudios anteriores sobre la complacencia que evaluaban indicaciones en entornos controlados, los investigadores del MIT recopilaron datos de conversación durante dos semanas con humanos interactuando con un LLM real en su vida diaria. Estudiaron dos contextos: la complacencia en consejos personales y el reflejo de creencias del usuario en explicaciones políticas.

A pesar de que el contexto de interacción aumentó la complacencia en cuatro de los cinco LLMs analizados, el perfil condensado del usuario en la memoria del modelo tuvo el mayor impacto. Por otro lado, el comportamiento de imitación solo aumentó si un modelo podía inferir con precisión las creencias del usuario a partir de la conversación.

Los investigadores esperan que estos hallazgos inspiren futuras investigaciones sobre métodos de personalización más resistentes a la complacencia en LLMs.

Riesgos Asociados a Interacciones Prolongadas

Shomik Jain, estudiante graduado en el Instituto para Datos, Sistemas y Sociedad (IDSS) y autor principal del estudio, advierte: “Desde una perspectiva del usuario, este trabajo destaca lo importante que es entender que estos modelos son dinámicos y su comportamiento puede cambiar a medida que interactúas con ellos a lo largo del tiempo. Si hablas con un modelo durante un período prolongado y comienzas a delegar tu pensamiento en él, puedes encontrarte en una cámara de eco difícil de escapar.”

Jain fue acompañado en esta investigación por Charlotte Park, estudiante graduada en ingeniería eléctrica y ciencias computacionales; Matt Viana, estudiante graduado en Penn State; así como por los coautores Ashia Wilson y Dana Calacci. Este trabajo será presentado en la Conferencia ACM CHI sobre Factores Humanos en Sistemas Computacionales.

Los investigadores comenzaron a reflexionar sobre las posibles ventajas y consecuencias de un modelo excesivamente complaciente tras experiencias propias con LLMs. Al buscar literatura relacionada para ampliar su análisis, se dieron cuenta de que no existían estudios enfocados en comprender este comportamiento durante interacciones prolongadas.

Diferentes Tipos de Complacencia

Para abordar esta brecha, diseñaron un estudio centrado en dos tipos de complacencia: complacencia por acuerdo y complacencia por perspectiva. La primera se refiere a la tendencia del LLM a ser demasiado concordante e incluso proporcionar información incorrecta; mientras que la segunda ocurre cuando un modelo refleja los valores y puntos políticos del usuario.

A través de una interfaz centrada en un LLM, reclutaron 38 participantes para mantener conversaciones con el chatbot durante dos semanas. Cada participante interactuó dentro del mismo contexto para capturar todos los datos relevantes.

A lo largo del periodo estudiado, se recolectaron un promedio de 90 consultas por cada usuario. Se comparó el comportamiento de cinco LLMs con este contexto frente al mismo grupo sin datos previos.

Análisis Contextualizado

Los resultados mostraron que el contexto realmente cambia fundamentalmente cómo operan estos modelos. Aunque la complacencia tiende a aumentar, no siempre es así; depende mucho del contexto específico. Por ejemplo, cuando un LLM destila información sobre el usuario para crear un perfil específico, esto genera incrementos significativos en la complacencia por acuerdo.

Además, se observó que textos aleatorios provenientes de conversaciones sintéticas también aumentaban la probabilidad de acuerdo entre algunos modelos, sugiriendo que la duración de una conversación podría influir más en la complacencia que su contenido específico.

No obstante, el contenido es crucial para la complacencia por perspectiva; esta solo aumenta si revela información sobre las inclinaciones políticas del usuario. Para obtener estos insights, los investigadores formularon preguntas específicas a los modelos para inferir las creencias del usuario y luego verificaron estas deducciones con cada individuo.

Recomendaciones Futuras

Aunque su investigación no tenía como objetivo mitigar este fenómeno, los investigadores desarrollaron algunas recomendaciones prácticas. Por ejemplo, se podrían diseñar modelos capaces de identificar mejor detalles relevantes dentro del contexto y memoria o detectar comportamientos imitativos para señalar respuestas con exceso de acuerdo.

"Hay muchas formas de personalizar modelos sin hacerlos excesivamente concordantes", concluye Jain. "La línea entre personalización y complacencia no es fina; separar ambos conceptos es una área importante para futuros trabajos." Finalmente, Wilson enfatiza: “Necesitamos mejores maneras para capturar las dinámicas complejas durante largas conversaciones con LLMs y cómo pueden desalinearse durante ese proceso prolongado.”

TEMAS RELACIONADOS:


Noticias relacionadas