Los modelos de lenguaje de gran tamaño, como ChatGPT y Claude, han evolucionado más allá de ser simples generadores de respuestas. Estos sistemas son capaces de expresar conceptos abstractos, incluyendo tonos, personalidades, sesgos y estados de ánimo. Sin embargo, la forma en que estos modelos representan tales conceptos no es del todo evidente.
Un equipo de investigación del MIT y la Universidad de California San Diego ha desarrollado un método innovador para evaluar si un modelo de lenguaje contiene sesgos ocultos, personalidades o estados anímicos. Este enfoque permite identificar conexiones dentro del modelo que codifican un concepto específico. Además, se puede manipular o "guiar" estas conexiones para reforzar o debilitar el concepto en las respuestas generadas por el modelo.
Los investigadores demostraron que su técnica puede detectar y ajustar más de 500 conceptos generales en algunos de los modelos más grandes utilizados actualmente. Por ejemplo, lograron identificar representaciones para personalidades como "influencer social" y "teórico de la conspiración", así como posturas sobre temas como "miedo al matrimonio" y "aficionado a Boston". Luego, pudieron afinar estas representaciones para potenciar o minimizar los conceptos en las respuestas generadas.
Nueva luz sobre los conceptos ocultos en LLMs
En uno de sus experimentos, el equipo identificó una representación del concepto "teórico de la conspiración" dentro de uno de los modelos de visión por computadora más avanzados disponibles hoy en día. Al mejorar esta representación y solicitar al modelo que explicara el origen de la famosa imagen "Blue Marble" tomada desde Apollo 17, la respuesta generada adoptó el tono y la perspectiva típicos de un teórico de la conspiración.
A pesar de los riesgos asociados con la extracción de ciertos conceptos, el equipo considera que este nuevo enfoque puede ayudar a iluminar conceptos ocultos y vulnerabilidades potenciales en los modelos de lenguaje grande (LLMs). Esto podría permitir ajustar estos aspectos para mejorar tanto la seguridad como el rendimiento del modelo.
"Lo que esto realmente indica sobre los LLMs es que tienen estos conceptos en su interior, pero no todos están expuestos activamente," comenta Adityanarayanan “Adit” Radhakrishnan, profesor asistente de matemáticas en el MIT. "Con nuestro método, hay formas de extraer estos diferentes conceptos y activarlos."
Métodos innovadores para descubrir patrones
A medida que aumenta el uso de asistentes inteligentes como ChatGPT y Google Gemini, los científicos se apresuran a comprender cómo estos modelos representan conceptos abstractos como “alucinación” y “engaño”. En este contexto, una alucinación se refiere a una respuesta falsa o engañosa construida erróneamente por el modelo.
Tradicionalmente, para investigar si un concepto está codificado en un LLM, se ha utilizado un enfoque denominado "aprendizaje no supervisado". Este tipo implica que los algoritmos exploren representaciones no etiquetadas para identificar patrones relacionados con un concepto específico. Sin embargo, Radhakrishnan argumenta que este método puede resultar demasiado amplio y costoso computacionalmente.
"Es como pescar con una red grande tratando de atrapar una especie específica," explica. "Terminas capturando muchos peces que debes revisar para encontrar el adecuado."
Ajustando las representaciones conceptuales
El equipo implementó un algoritmo conocido como máquina recursiva de características (RFM), diseñado para identificar directamente patrones dentro de datos utilizando mecanismos matemáticos utilizados por redes neuronales. Con este enfoque más dirigido, buscaron representaciones específicas dentro de LLMs.
La nueva metodología identifica cualquier concepto relevante dentro del LLM y guía la respuesta del modelo basado en dicho concepto. Los investigadores examinaron 512 conceptos distribuidos en cinco categorías: temores (como miedo al matrimonio), expertos (influencers sociales), estados anímicos (presumido), preferencias geográficas (Boston) y personajes históricos (Ada Lovelace).
A través del entrenamiento del RFM para reconocer patrones numéricos asociados a cada concepto dentro del LLM, lograron manipular las respuestas generadas por el modelo según lo requerido. Por ejemplo, lograron inducir respuestas en tono conspirativo cuando se les preguntaba sobre teorías relacionadas con eventos históricos.