La identificación de objetos personalizados en entornos complejos ha sido un desafío para los modelos de inteligencia artificial, especialmente aquellos que combinan visión y lenguaje. Un grupo de investigadores del MIT y el MIT-IBM Watson AI Lab ha desarrollado un innovador método de entrenamiento que mejora la capacidad de estos modelos para localizar objetos únicos en nuevas escenas.
Imaginemos a una persona que lleva a su bulldog francés, Bowser, al parque canino. Mientras está presente, el dueño puede reconocer fácilmente a Bowser entre otros perros. Sin embargo, si intenta utilizar un modelo generativo de IA como GPT-5 para supervisar a su mascota mientras trabaja, es probable que el modelo no logre identificarlo correctamente. Aunque estos modelos son eficaces en la detección de objetos generales, como un perro, presentan dificultades al intentar localizar objetos personalizados.
Nueva metodología para mejorar la localización de objetos
Para superar esta limitación, los investigadores han introducido una técnica que utiliza datos de seguimiento de video cuidadosamente preparados, donde se rastrea el mismo objeto a través de múltiples fotogramas. Este enfoque obliga al modelo a centrarse en las pistas contextuales para identificar el objeto personalizado, en lugar de depender únicamente del conocimiento previamente memorizado.
Cuando se le presentan algunas imágenes ejemplo que muestran un objeto personalizado, como una mascota, el modelo reentrenado es más eficaz en identificar la ubicación del mismo animal en una nueva imagen. Los resultados han demostrado que los modelos ajustados con este método superan a los sistemas más avanzados existentes en esta tarea específica.
Aplicaciones potenciales y beneficios
Esta nueva metodología podría ser fundamental para futuros sistemas de IA que necesiten rastrear objetos específicos a lo largo del tiempo, como una mochila infantil o localizar especies animales en estudios ecológicos. Además, tiene el potencial de contribuir al desarrollo de tecnologías asistivas impulsadas por IA que ayuden a personas con discapacidad visual a encontrar ciertos elementos en una habitación.
"Nuestro objetivo es que estos modelos aprendan del contexto, tal como lo hacemos los humanos. Si un modelo puede lograr esto adecuadamente, no sería necesario reentrenarlo para cada nueva tarea; bastaría con proporcionar unos pocos ejemplos y deduciría cómo realizar la tarea desde ese contexto," afirma Jehanzeb Mirza, investigador postdoctoral en MIT y autor principal del estudio publicado sobre esta técnica.
Desafíos encontrados durante la investigación
A pesar del avance significativo logrado por los investigadores, se encontraron con obstáculos inesperados. Por ejemplo, aunque los grandes modelos de lenguaje (LLMs) pueden aprender efectivamente del contexto cuando se les proporcionan ejemplos específicos, se descubrió que los modelos de visión-lenguaje (VLMs) no heredan estas capacidades. Esto plantea interrogantes sobre si hay información visual perdida al combinar ambos componentes.
Los investigadores se enfocaron en mejorar la habilidad de los VLMs para realizar localizaciones contextuales específicas. Se dieron cuenta de que los datos típicos utilizados para afinar estos modelos suelen ser aleatorios y carecen de coherencia suficiente para enseñarles a reconocer el mismo objeto en múltiples imágenes.
Estrategias innovadoras para mejorar el rendimiento
Para abordar este problema, desarrollaron un nuevo conjunto de datos utilizando muestras extraídas de videos donde se muestra el mismo objeto moviéndose por diferentes escenarios. Cada entrada consistía en múltiples imágenes del mismo objeto junto con preguntas y respuestas sobre su ubicación.
A través de este enfoque innovador y utilizando nombres ficticios para evitar que el modelo haga trampa basándose en conocimientos previos (por ejemplo, renombrando un tigre como "Charlie"), lograron forzar al modelo a concentrarse en las pistas contextuales relevantes.
El ajuste fino realizado con este nuevo conjunto mejoró la precisión en la localización personalizada alrededor del 12% en promedio; cuando se incluyeron nombres ficticios, las mejoras alcanzaron hasta un 21%. A medida que aumenta el tamaño del modelo, también lo hacen las ganancias en rendimiento.
Puntos futuros y conclusiones
A medida que avanza esta línea de investigación, los científicos planean explorar las razones por las cuales los VLMs no heredan las capacidades de aprendizaje contextual presentes en sus LLMs base. También buscan desarrollar mecanismos adicionales para mejorar el rendimiento sin necesidad de reentrenar con nuevos datos.
"Este trabajo redefine la localización personalizada rápida —adaptándose sobre la marcha al mismo objeto a través de nuevas escenas— como un problema de ajuste basado en instrucciones y utiliza secuencias de seguimiento por video para enseñar a los VLMs a localizarse según el contexto visual," concluye Saurav Jha, investigador postdoctoral no involucrado directamente en este trabajo pero quien destaca su relevancia práctica.