Investigadores del MIT han desarrollado un sistema de visión inalámbrica que utiliza inteligencia artificial generativa para detectar objetos ocultos, mejorando la precisión en la reconstrucción de escenas y objetos bloqueados.
Investigadores del MIT han dedicado más de una década a desarrollar técnicas que permiten a los robots detectar y manipular objetos ocultos mediante la capacidad de “ver” a través de obstáculos. Estos métodos se basan en el uso de señales inalámbricas que penetran superficies y se reflejan en objetos ocultos.
Recientemente, el equipo ha comenzado a aplicar modelos de inteligencia artificial generativa para superar un obstáculo importante que limitaba la precisión de enfoques anteriores. El resultado es un nuevo método que ofrece reconstrucciones de formas más precisas, mejorando así la habilidad de los robots para agarrar y manipular objetos que no están a la vista.
Esta técnica innovadora permite construir una reconstrucción parcial de un objeto escondido a partir de las señales inalámbricas reflejadas, completando las partes faltantes con un modelo de IA generativa específicamente entrenado. Además, los investigadores han desarrollado un sistema ampliado que utiliza esta misma inteligencia artificial para reconstruir con precisión toda una habitación, incluyendo todos los muebles presentes.
El sistema aprovecha señales inalámbricas enviadas desde un radar estacionario, las cuales se reflejan en personas que se mueven dentro del espacio. Esto resuelve uno de los principales desafíos de muchos métodos existentes, que requieren un sensor inalámbrico montado en un robot móvil para escanear el entorno. A diferencia de algunas técnicas basadas en cámaras, este enfoque también protege la privacidad de las personas en el área.
Estas innovaciones podrían permitir a los robots en almacenes verificar los artículos empaquetados antes del envío, eliminando desperdicios derivados de devoluciones. Asimismo, facilitarían que robots domésticos comprendan la ubicación de una persona dentro de una habitación, mejorando así la seguridad y eficiencia en la interacción humano-robot.
“Lo que hemos logrado ahora es desarrollar modelos de IA generativa que nos ayudan a entender las reflexiones inalámbricas. Esto abre muchas nuevas aplicaciones interesantes y representa un salto cualitativo en nuestras capacidades”, explica Fadel Adib, profesor asociado del Departamento de Ingeniería Electrónica e Informática y director del grupo Signal Kinetics del MIT Media Lab. “Estamos utilizando IA para desbloquear finalmente la visión inalámbrica”.
El grupo Adib había demostrado previamente el uso de señales milimétricas (mmWave) para crear reconstrucciones precisas de objetos 3D ocultos, como una billetera perdida bajo una pila. Estas ondas, similares a las utilizadas por Wi-Fi, pueden atravesar obstrucciones comunes como paneles de yeso, plástico y cartón, reflejándose en objetos ocultos.
No obstante, las mmWaves suelen reflejarse de manera especular, lo que significa que una onda se refleja en una única dirección tras impactar una superficie. Esto provoca que grandes áreas queden fuera del alcance del sensor mmWave, volviéndose efectivamente invisibles.
“Cuando intentamos reconstruir un objeto, solo podemos ver la superficie superior y no tenemos visibilidad sobre los lados o la parte inferior”, aclara Dodds. Anteriormente, los investigadores utilizaban principios físicos para interpretar señales reflejadas; sin embargo, esto limitaba la precisión en las formas 3D reconstruidas.
En sus nuevos trabajos, superaron esta limitación al emplear un modelo generativo para completar partes faltantes en una reconstrucción parcial. “El reto entonces es: ¿cómo entrenamos estos modelos para llenar esos vacíos?”, plantea Adib.
A menudo, se requieren conjuntos de datos extremadamente grandes para entrenar un modelo generativo; sin embargo, no existen suficientes datos mmWave disponibles. En su lugar, adaptaron imágenes de grandes conjuntos de datos de visión por computadora para simular propiedades similares a las reflexiones mmWave.
“Simulamos la propiedad de especularidad y el ruido derivado de estas reflexiones para poder aplicar conjuntos existentes a nuestro dominio. Nos habría llevado años recopilar suficientes datos nuevos”, comenta Lam.
Los investigadores incorporaron la física detrás de las reflexiones mmWave directamente en estos datos adaptados creando así un conjunto sintético utilizado para enseñar al modelo generativo cómo realizar reconstrucciones plausibles. El sistema completo denominado Wave-Former, propone superficies potenciales basadas en reflexiones mmWave y alimenta estas al modelo generativo para completar la forma antes de refinarla hasta lograr una reconstrucción completa.
Wave-Former logró generar reconstrucciones fieles de aproximadamente 70 objetos cotidianos como latas, cajas y utensilios, aumentando su precisión casi un 20% respecto a las mejores técnicas actuales. Los objetos estaban ocultos detrás o debajo de cartón, madera y otros materiales.
Además, el equipo utilizó este mismo enfoque para construir un sistema ampliado llamado RISE, capaz de reconstruir completamente escenas interiores aprovechando las reflexiones mmWave producidas por humanos moviéndose dentro del espacio. Este sistema ha demostrado ser significativamente más preciso que los métodos existentes.