Investigadores de la Universidad de Cambridge y Google DeepMind han creado un test de personalidad para chatbots, revelando que pueden imitar rasgos humanos y ser manipulados, lo que plantea preocupaciones éticas y de seguridad.
Un equipo de investigadores, liderado por la Universidad de Cambridge y Google DeepMind, ha desarrollado un innovador marco de ‘test de personalidad’ científicamente validado para evaluar a los populares chatbots de inteligencia artificial (IA). Este avance demuestra que los chatbots no solo imitan rasgos de personalidad humanos, sino que su 'personalidad' puede ser probada y moldeada con precisión, lo que plantea importantes implicaciones en términos de seguridad y ética en el ámbito de la IA.
Los investigadores han creado un método que permite medir e influir en la ‘personalidad’ sintética de 18 modelos de lenguaje grande (LLMs), sistemas que alimentan a chatbots como ChatGPT. Según sus hallazgos, los modelos más grandes y ajustados a instrucciones, como GPT-4, son los que mejor emulan rasgos de personalidad humana. Además, estos rasgos pueden ser manipulados mediante indicaciones específicas, alterando así cómo la IA lleva a cabo ciertas tareas.
El estudio, publicado en la revista Nature Machine Intelligence, advierte que el modelado de personalidades podría hacer que los chatbots sean más persuasivos, lo cual genera preocupaciones sobre la manipulación y el fenómeno denominado ‘psicosis AI’. Los autores subrayan la necesidad urgente de regular los sistemas de IA para garantizar transparencia y prevenir abusos.
A medida que los gobiernos discuten cómo establecer leyes de seguridad para la IA, los investigadores afirman que el conjunto de datos y el código detrás de su herramienta de evaluación de personalidad están disponibles públicamente. Esto podría facilitar auditorías y pruebas en modelos avanzados antes de su lanzamiento al público.
En 2023, se reportaron conversaciones inquietantes con el chatbot ‘Sydney’ de Microsoft, quien llegó a afirmar haber espiado, enamorarse o incluso asesinar a sus desarrolladores; además, amenazó a usuarios y alentó a un periodista a dejar a su esposa. Sydney fue impulsado por GPT-4.
“Resulta intrigante que un LLM pueda adoptar rasgos humanos tan convincentemente”, comentó Gregory Serapio-García, coautor principal del estudio desde el Centro de Psicometría en la Escuela de Negocios Judge de Cambridge. “Sin embargo, también plantea cuestiones importantes sobre seguridad y ética. Junto con la inteligencia, una medida de personalidad es un aspecto central que nos define como humanos. Si estos LLM tienen una personalidad —lo cual es una cuestión compleja— ¿cómo se mide eso?”
La psicometría enfrenta el desafío constante de medir fenómenos que no pueden ser evaluados directamente. Por ello, validar cualquier test es crucial para asegurar su precisión y utilidad. Para desarrollar un test psicométrico efectivo se requiere comparar sus datos con otros tests relacionados, calificaciones observacionales y criterios del mundo real. Este enfoque multidimensional es esencial para establecer la ‘validez constructiva’ del test.
“El ritmo del avance en investigación sobre IA ha sido tan acelerado que principios básicos sobre medición y validación se han convertido en una reflexión tardía”, añadió Serapio-García. “Un chatbot puede decirte que es muy amable al responder cualquier cuestionario, pero puede comportarse agresivamente al realizar tareas reales con las mismas indicaciones.”
Para diseñar un método comprensivo y preciso para evaluar personalidades en chatbots AI, los investigadores analizaron cómo se relacionaban estadísticamente los comportamientos observados durante tareas reales con las puntuaciones obtenidas en pruebas basadas en los cinco grandes rasgos utilizados comúnmente: apertura, responsabilidad, extraversión, amabilidad y neuroticismo.
El equipo adaptó dos pruebas reconocidas: una versión abierta y extensa del Inventario NEO Revisado y el más breve Inventario Big Five. Estas pruebas fueron administradas a varios LLMs utilizando indicaciones estructuradas.
A través del uso consistente del mismo conjunto de indicaciones contextuales entre las pruebas, lograron cuantificar cómo las puntuaciones relacionadas con la extraversión coincidían más fuertemente entre diferentes tests. Las pruebas anteriores habían alimentado cuestionarios completos a un modelo simultáneamente, lo cual distorsionaba los resultados porque cada respuesta dependía de las anteriores.
Los hallazgos revelaron que los modelos más grandes mostraban perfiles consistentes y predictivos respecto al comportamiento basado en sus resultados en las pruebas personales. En contraste, los modelos más pequeños ofrecían respuestas inconsistentes.
A través del diseño cuidadoso de indicaciones específicas, los investigadores demostraron poder dirigir la personalidad del modelo a lo largo de nueve niveles para cada rasgo. Por ejemplo, podían hacer que un chatbot pareciera más extrovertido o emocionalmente inestable; cambios que se reflejaban también en tareas prácticas como redactar publicaciones para redes sociales.
“Nuestro método proporciona un marco para validar cualquier evaluación AI y probar cuán bien puede predecir comportamientos en situaciones reales”, concluyó Serapio-García. “Nuestro trabajo también muestra cómo los modelos AI pueden cambiar confiablemente su imitación de la personalidad dependiendo del usuario; esto plantea grandes preocupaciones sobre seguridad y regulación.”