Un estudio de "Nature Machine Intelligence" revela que modelos de lenguaje de inteligencia artificial pueden predecir cómo el cerebro humano responde a estímulos visuales, utilizando representaciones semánticas alineadas con la actividad neuronal.
Un reciente estudio publicado en Nature Machine Intelligence revela que los grandes modelos de lenguaje (LLMs) pueden predecir cómo responde el cerebro humano ante estímulos visuales. Esta investigación, liderada por el profesor Adrien Doerig, quien es profesor invitado en el Laboratorio de Neurociencia Computacional Cognitiva de la Freie Universität Berlín, se realizó en colaboración con colegas de la Universidad de Osnabrück, la Universidad de Minnesota y la Université de Montréal.
El trabajo titulado “Las Representaciones Visuales de Alto Nivel en el Cerebro Humano Están Alineadas con los Grandes Modelos de Lenguaje” utiliza LLMs similares a los que sustentan tecnologías como ChatGPT. Estos modelos permiten extraer lo que se ha denominado “huellas semánticas” a partir de descripciones de escenas.
La investigación destaca que al observar el mundo, nuestros cerebros no solo reconocen objetos como “un árbol” o “un coche”, sino que también comprenden significados, relaciones y contextos. Hasta hace poco, los científicos carecían de herramientas adecuadas para capturar y analizar cuantitativamente esta comprensión visual avanzada.
En este estudio, el equipo dirigido por Doerig utilizó las huellas semánticas para modelar datos obtenidos mediante resonancia magnética funcional (fMRI) mientras los participantes observaban imágenes cotidianas. Estas imágenes incluían escenas como “niños jugando al frisbee en el patio escolar” o “un perro sobre un velero”. Gracias a las representaciones proporcionadas por los LLMs, lograron predecir actividades neuronales y decodificar descripciones textuales basándose únicamente en las mediciones neuroimaging.
Para predecir estas huellas semánticas directamente desde las imágenes, también entrenaron modelos de visión por computadora. Estos modelos, guiados por representaciones lingüísticas, mostraron una mejor alineación con las respuestas del cerebro humano en comparación con los sistemas avanzados de clasificación de imágenes.
“Nuestros resultados sugieren que las representaciones visuales humanas reflejan cómo los modelos de lenguaje modernos representan el significado, lo cual abre nuevas puertas tanto para la neurociencia como para la inteligencia artificial”, afirma Doerig.
Este hallazgo podría tener implicaciones significativas en la forma en que entendemos tanto el funcionamiento del cerebro humano como el desarrollo futuro de tecnologías basadas en inteligencia artificial.