Investigadores del MIT han desarrollado un sistema que permite a robots de búsqueda y rescate generar mapas 3D precisos de entornos complejos en segundos, mejorando su navegación en situaciones críticas.
Un nuevo enfoque desarrollado en el MIT promete revolucionar la forma en que los robots de búsqueda y rescate navegan en entornos impredecibles, permitiéndoles generar mapas precisos de su entorno de manera rápida y eficiente. Este avance es crucial para situaciones críticas, como la localización de trabajadores atrapados en un pozo minero parcialmente colapsado.
Los investigadores han comenzado a construir modelos avanzados de aprendizaje automático que permiten a los robots realizar esta tarea compleja utilizando únicamente imágenes captadas por sus cámaras. Sin embargo, incluso los modelos más sofisticados solo pueden procesar unas pocas imágenes a la vez. En un escenario real donde cada segundo cuenta, un robot de búsqueda y rescate necesita recorrer grandes áreas y procesar miles de imágenes para cumplir su misión.
Para abordar este desafío, los investigadores del MIT combinaron ideas de modelos recientes de visión por computadora con métodos clásicos, desarrollando un sistema capaz de procesar un número arbitrario de imágenes. Este sistema genera mapas 3D precisos de escenas complejas, como un pasillo abarrotado, en cuestión de segundos.
El sistema impulsado por inteligencia artificial crea y alinea incrementalmente submapas más pequeños del entorno, que luego se ensamblan para reconstruir un mapa 3D completo mientras estima la posición del robot en tiempo real. A diferencia de muchos enfoques actuales, esta técnica no requiere cámaras calibradas ni expertos para ajustar su implementación.
Más allá de facilitar la navegación para robots de búsqueda y rescate, este método tiene potenciales aplicaciones en realidad extendida para dispositivos portátiles como cascos de realidad virtual o en la automatización industrial para que los robots encuentren y muevan mercancías rápidamente dentro de un almacén.
“Para que los robots realicen tareas cada vez más complejas, necesitan representaciones cartográficas igualmente complejas del mundo que les rodea. Pero al mismo tiempo, no queremos complicar la implementación práctica de estos mapas. Hemos demostrado que es posible generar una reconstrucción 3D precisa en cuestión de segundos con una herramienta lista para usar”, afirma Dominic Maggio, estudiante graduado del MIT y autor principal del estudio.
Maggio trabajó junto al postdoctorado Hyungtae Lim y el autor senior Luca Carlone, profesor asociado en el Departamento de Aeronáutica y Astronáutica del MIT. Esta investigación será presentada en la Conferencia sobre Sistemas Neurales de Procesamiento de Información.
A lo largo de los años, los investigadores han enfrentado el reto fundamental del mapeo y localización simultáneos (SLAM), donde un robot recrea un mapa mientras se orienta dentro del espacio. Los métodos tradicionales tienden a fallar en escenas complejas o requieren calibración previa de las cámaras del robot.
A pesar de ser más sencillos, incluso los mejores modelos actuales solo pueden procesar alrededor de 60 imágenes a la vez, lo que resulta inviable cuando se necesita mover rápidamente a través de entornos variados mientras se procesan miles de imágenes.
Para resolver este problema, los investigadores diseñaron un sistema que genera submapas más pequeños en lugar del mapa completo. Su método "pega" estos submapas juntos para crear una reconstrucción 3D general. Aunque el modelo sigue procesando unas pocas imágenes a la vez, el sistema puede recrear escenas más grandes mucho más rápido al ensamblar submapas menores.
"Esta parecía una solución muy simple, pero cuando lo intenté por primera vez, me sorprendió que no funcionara tan bien", comenta Maggio. Tras investigar trabajos anteriores sobre visión por computadora desde las décadas de 1980 y 1990, comprendió que los errores en el procesamiento podían complicar aún más la alineación entre submapas.
Aprovechando conceptos clásicos en visión por computadora, desarrollaron una técnica matemática flexible capaz de representar todas las deformaciones presentes en estos submapas. Al aplicar transformaciones matemáticas a cada uno, lograron alinearlos adecuadamente a pesar de las ambigüedades introducidas por los nuevos modelos.
"Una vez que Dominic tuvo la intuición para unir estos dos mundos —enfoques basados en aprendizaje y métodos tradicionales— la implementación fue bastante directa", explica Carlone. “Crear algo tan efectivo y simple tiene potencial para muchas aplicaciones". Su sistema demuestra ser más rápido y con menos errores en comparación con otros métodos sin requerir cámaras especiales o herramientas adicionales para procesar datos.
A medida que avanzan hacia el futuro, los investigadores buscan hacer su método aún más confiable frente a escenas especialmente complicadas e implementarlo efectivamente en robots reales operando en entornos desafiantes. “Conocer geometría tradicional tiene sus beneficios; si comprendes profundamente lo que está sucediendo dentro del modelo, puedes obtener resultados mucho mejores”, concluye Carlone.