Investigadores del MIT han desarrollado una técnica innovadora que mejora la generación de modelos 3D realistas utilizando inteligencia artificial generativa. Al abordar las limitaciones de los métodos existentes, lograron producir formas 3D nítidas y de alta calidad sin necesidad de reentrenamiento costoso. Esta metodología optimiza el proceso creativo en campos como la realidad virtual y el cine, facilitando a los diseñadores la creación de objetos tridimensionales más precisos y atractivos.
La creación de modelos 3D realistas para aplicaciones como la realidad virtual, el cine y el diseño de ingeniería puede ser un proceso complicado que requiere mucho ensayo y error manual. Mientras que los modelos de inteligencia artificial generativa para imágenes pueden optimizar los procesos artísticos, permitiendo a los creadores producir imágenes 2D vívidas a partir de indicaciones textuales, estos modelos no están diseñados para generar formas en 3D.
Para abordar esta limitación, se ha desarrollado recientemente una técnica llamada Score Distillation, que utiliza modelos de generación de imágenes 2D para crear formas en 3D; sin embargo, a menudo sus resultados son borrosos o caricaturescos.
Investigadores del MIT han examinado las relaciones y diferencias entre los algoritmos utilizados para generar imágenes 2D y formas en 3D, identificando la causa raíz de la baja calidad en los modelos 3D. A partir de este análisis, lograron implementar una solución sencilla a Score Distillation, lo que permite generar formas en 3D nítidas y de alta calidad, comparables a las mejores imágenes generadas por modelos en 2D.
Otras metodologías intentan resolver este problema mediante el reentrenamiento o ajuste fino del modelo de IA generativa, lo cual puede resultar costoso y consumir mucho tiempo. En contraste, la técnica del MIT logra una calidad de forma en 3D comparable o superior sin necesidad de entrenamiento adicional ni procesamiento posteriore complejo.
Además, al identificar la causa del problema, los investigadores han mejorado la comprensión matemática de Score Distillation y técnicas relacionadas, lo que permitirá futuros trabajos para mejorar aún más el rendimiento. “Ahora sabemos hacia dónde debemos dirigirnos, lo que nos permite encontrar soluciones más eficientes que sean más rápidas y de mayor calidad”, afirma Artem Lukoianov, estudiante graduado en ingeniería eléctrica y ciencias computacionales (EECS) y autor principal del artículo sobre esta técnica.
Lukoianov cuenta con la colaboración de Haitz Sáez de Ocáriz Borde, estudiante graduado en la Universidad de Oxford; Kristjan Greenewald, científico investigador en el MIT-IBM Watson AI Lab; Vitor Campagnolo Guizilini, científico en el Instituto de Investigación Toyota; Timur Bagautdinov, científico investigador en Meta; así como autores senior como Vincent Sitzmann, profesor asistente en EECS en el MIT, quien lidera el Grupo de Representación Escénica en el Laboratorio de Ciencias Computacionales e Inteligencia Artificial (CSAIL), y Justin Solomon, profesor asociado también en EECS y líder del Grupo de Procesamiento Geométrico de CSAIL. Esta investigación será presentada en la Conferencia sobre Sistemas Neurales de Procesamiento de Información.
Los modelos de difusión, como DALL-E, son un tipo de modelo generativo que puede producir imágenes realistas a partir de ruido aleatorio. Para entrenar estos modelos, los investigadores añaden ruido a las imágenes y luego enseñan al modelo a revertir el proceso eliminando ese ruido. Este proceso aprendido se utiliza para crear imágenes basadas en las indicaciones textuales del usuario.
No obstante, los modelos de difusión tienen un rendimiento inferior al generar directamente formas tridimensionales realistas debido a la falta de datos 3D suficientes para su entrenamiento. Para superar este obstáculo, se desarrolló una técnica llamada Score Distillation Sampling (SDS) en 2022 que utiliza un modelo difusor preentrenado para combinar imágenes 2D en una representación tridimensional.
Dicha técnica comienza con una representación aleatoria en 3D, renderiza una vista 2D del objeto deseado desde un ángulo aleatorio, añade ruido a esa imagen y luego elimina el ruido utilizando un modelo difusor antes de optimizar la representación aleatoria hasta que coincida con la imagen denoised. Estos pasos se repiten hasta generar el objeto tridimensional deseado.
A pesar del potencial del método SDS, las formas producidas tienden a ser borrosas o sobresaturadas. Los investigadores del MIT analizaron los pasos involucrados y encontraron un desajuste entre una fórmula clave utilizada durante el proceso y su contraparte en los modelos difusores 2D. Esta fórmula indica cómo actualizar la representación aleatoria añadiendo o eliminando ruido gradualmente para asemejarse más a la imagen deseada.
Dado que parte de esta fórmula es demasiado compleja para resolverse eficientemente, SDS reemplaza dicho componente con ruido muestreado aleatoriamente en cada paso. Los investigadores descubrieron que este ruido provoca formas tridimensionales borrosas o caricaturescas.
A través del uso eficaz técnicas aproximativas, lograron identificar la mejor opción: inferir el término faltante desde la representación actual del objeto tridimensional. “Al hacer esto, como predice nuestro análisis, genera formas tridimensionales nítidas y realistas”, señala Lukoianov.
Finalmente, aumentaron la resolución del renderizado e hicieron ajustes adicionales a algunos parámetros del modelo para mejorar aún más la calidad final. Como resultado, pudieron utilizar un modelo difusor preentrenado disponible comercialmente para crear objetos tridimensionales suaves y realistas sin necesidad de costosos reentrenamientos.
Aunque su método depende del modelo difusor preentrenado heredando sus sesgos y limitaciones—lo que puede llevar a fallos—la mejora continua del modelo subyacente podría potenciar su proceso significativamente.
Aparte del estudio sobre cómo resolver más eficazmente esta fórmula compleja, los investigadores están interesados en explorar cómo estas ideas podrían mejorar técnicas relacionadas con la edición de imágenes.
Artem Lukoianov recibe financiación por parte del Centro Conjunto de Investigación Toyota–CSAIL. La investigación realizada por Vincent Sitzmann cuenta con apoyo por parte de diversas entidades incluyendo la Fundación Nacional Científica estadounidense y otras instituciones internacionales. Por su parte,Justin Solomon, también recibe financiación parcial por medio del Departamento estadounidense encargado del desarrollo militar y otros programas relacionados con tecnología avanzada.