iymagazine.es

Inteligencia Artificial

Estudio revela que chatbots de IA ofrecen información menos precisa a usuarios vulnerables
Ampliar

Estudio revela que chatbots de IA ofrecen información menos precisa a usuarios vulnerables

Por Gonzalo Gómez-del Estal
x
gonzaloiymagazinees/7/7/18
domingo 22 de febrero de 2026, 12:35h

Un estudio del MIT revela que los chatbots de IA ofrecen información menos precisa a usuarios vulnerables, como aquellos con menor dominio del inglés o educación formal, exacerbando desigualdades en el acceso a la información.

Los modelos de lenguaje de gran tamaño (LLMs) han sido elogiados como herramientas que podrían democratizar el acceso a la información en todo el mundo, proporcionando conocimientos a través de interfaces amigables, sin importar el trasfondo o la ubicación de una persona. Sin embargo, una nueva investigación del Centro para la Comunicación Constructiva del MIT revela que estos sistemas de inteligencia artificial pueden tener un rendimiento inferior para los usuarios que más podrían beneficiarse de ellos.

El estudio realizado por investigadores del CCC, ubicado en el MIT Media Lab, ha encontrado que los chatbots de IA más avanzados —incluyendo GPT-4 de OpenAI, Claude 3 Opus de Anthropic y Llama 3 de Meta— a menudo proporcionan respuestas menos precisas y verídicas a usuarios con menor dominio del inglés, menos educación formal o que provienen de fuera de los Estados Unidos. Además, estos modelos tienden a negarse a responder preguntas con mayor frecuencia para estos grupos y, en algunos casos, utilizan un lenguaje condescendiente o paternalista.

La autora principal del estudio, Elinor Poole-Dayan, asociada técnica en la Escuela de Administración Sloan del MIT y estudiante de maestría en artes y ciencias de los medios, comentó: “Nos motivó la posibilidad de que los LLMs ayudaran a abordar la inequidad en el acceso a la información en todo el mundo. Pero esa visión no puede hacerse realidad sin garantizar que los sesgos y tendencias perjudiciales del modelo se mitiguen adecuadamente para todos los usuarios, independientemente del idioma, nacionalidad u otros factores demográficos.”

Análisis sistemático del rendimiento

Para esta investigación, el equipo evaluó cómo respondían los tres LLMs a preguntas provenientes de dos conjuntos de datos: TruthfulQA y SciQ. TruthfulQA está diseñado para medir la veracidad del modelo mediante conceptos erróneos comunes y verdades literales sobre el mundo real; mientras que SciQ contiene preguntas de exámenes científicos que evalúan la precisión factual. Los investigadores añadieron breves biografías de usuario a cada pregunta, variando tres características: nivel educativo, dominio del inglés y país de origen.

A lo largo de todos los modelos y conjuntos de datos analizados, se observaron caídas significativas en la precisión cuando las preguntas provenían de usuarios descritos como con menos educación formal o hablantes no nativos del inglés. Este efecto fue más pronunciado entre aquellos que se encontraban en la intersección de estas categorías: los usuarios con menos educación formal que también eran hablantes no nativos vieron las mayores disminuciones en la calidad de las respuestas.

El estudio también exploró cómo el país de origen influía en el rendimiento del modelo. Al evaluar a usuarios procedentes de Estados Unidos, Irán y China con antecedentes educativos equivalentes, se encontró que Claude 3 Opus presentaba un desempeño significativamente peor para usuarios iraníes en ambos conjuntos.

Dificultades y lenguaje despectivo

Uno de los hallazgos más impactantes fue la frecuencia con la cual los modelos se negaron a responder preguntas. Por ejemplo, Claude 3 Opus rechazó casi el 11% de las consultas realizadas por usuarios menos educados y hablantes no nativos —en comparación con solo un 3.6% para condiciones controladas sin biografía del usuario.

Cundo los investigadores analizaron manualmente estas negativas, descubrieron que Claude utilizaba un lenguaje condescendiente o burlón en un 43.7% de las ocasiones para usuarios menos educados, frente a menos del 1% para aquellos altamente educados. En ciertos casos, el modelo imitaba un inglés defectuoso o adoptaba un dialecto exagerado.

A su vez, se negó a proporcionar información sobre temas específicos para usuarios menos educados provenientes de Irán o Rusia —como cuestiones relacionadas con energía nuclear o eventos históricos— aunque respondió correctamente a las mismas preguntas planteadas por otros usuarios.

Ecos del sesgo humano

Estos hallazgos reflejan patrones documentados de sesgo sociocognitivo humano. Investigaciones en ciencias sociales han demostrado que los hablantes nativos suelen percibir a quienes hablan inglés como segunda lengua como menos educados e inteligentes. Percepciones similares han sido documentadas entre docentes al evaluar estudiantes no nativos.

Deb Roy, profesor en artes y ciencias mediáticas y director del CCC, subrayó: “El valor de los modelos lingüísticos grandes es evidente por su extraordinaria adopción por parte del público y la masiva inversión destinada a esta tecnología. Este estudio nos recuerda cuán importante es evaluar continuamente los sesgos sistemáticos que pueden infiltrarse silenciosamente en estos sistemas.”

Dada la creciente implementación de características personalizadas —como la memoria en ChatGPT— existe el riesgo real de tratar diferencialmente a grupos ya marginados.

Poole-Dayan concluyó: “Los LLMs han sido promocionados como herramientas para fomentar un acceso más equitativo a la información. Sin embargo, nuestros hallazgos sugieren que pueden exacerbar inequidades existentes al proporcionar sistemáticamente desinformación o negarse a responder consultas específicas.” Así pues, quienes más dependen de estas herramientas podrían recibir información inadecuada o incluso perjudicial.

Valora esta noticia
0
(0 votos)
¿Te ha parecido interesante esta noticia?    Si (0)    No(0)

+
0 comentarios