Los modelos de inteligencia artificial más avanzados del mundo están adoptando una arquitectura conocida como mixture-of-experts (MoE), que permite un rendimiento sorprendente. Entre los diez modelos de código abierto más inteligentes, se encuentran el Kimi K2 Thinking, DeepSeek-R1 y Mistral Large 3, todos ellos capaces de funcionar hasta diez veces más rápido en sistemas NVIDIA GB200 NVL72.
La arquitectura MoE imita la eficiencia del cerebro humano al activar solo las áreas necesarias para cada tarea. De manera similar, estos modelos dividen el trabajo entre expertos especializados, lo que resulta en una generación de tokens más rápida y eficiente sin un aumento proporcional en la capacidad computacional requerida.
Ventajas de la Arquitectura Mixture-of-Experts
El uso de MoE ha sido reconocido por la industria, ya que los modelos más inteligentes en el ranking de Artificial Analysis utilizan esta arquitectura. Sin embargo, escalar estos modelos en producción mientras se mantiene un alto rendimiento es un desafío conocido.
Los sistemas NVIDIA GB200 NVL72 han sido diseñados para superar estas dificultades mediante una co-diseño extremo que combina optimizaciones de hardware y software, facilitando así la escalabilidad de los modelos MoE.
Kimi K2 Thinking: Un Modelo Líder en Rendimiento
El modelo Kimi K2 Thinking, clasificado como el más inteligente en el ranking mencionado, experimenta un aumento del rendimiento diez veces mayor al ser ejecutado en el sistema rack-scale NVIDIA GB200 NVL72 comparado con su predecesor, el H200. Este avance resalta cómo la arquitectura MoE está ganando terreno como la preferida para modelos de frontera.
A medida que las demandas de inteligencia artificial continúan creciendo, es evidente que los modelos MoE están liderando esta evolución. Desde principios de 2023, han permitido un incremento casi del 70% en la inteligencia del modelo, llevando a cabo tareas complejas con mayor eficacia.
Superando Obstáculos en Escalabilidad con Co-Diseño Extremo
La implementación efectiva de modelos MoE requiere distribuir expertos a través de múltiples GPUs debido a su tamaño y complejidad. Esta técnica, conocida como paralelismo experto, enfrenta desafíos como limitaciones de memoria y latencia durante la comunicación entre expertos.
NVIDIA ha abordado estos problemas mediante su sistema rack-scale GB200 NVL72, que integra 72 GPUs Blackwell trabajando conjuntamente para ofrecer un rendimiento excepcional y una memoria compartida rápida. Esta estructura permite superar las limitaciones tradicionales y maximizar el potencial de los modelos MoE.
Eficiencia Energética y Rendimiento Excepcional
El sistema NVIDIA GB200 NVL72 no solo mejora el rendimiento general; también ofrece una notable eficiencia energética. Este avance se traduce en una capacidad para generar ingresos por token diez veces superior, transformando así la economía detrás del uso de inteligencia artificial a gran escala.
En eventos recientes como NVIDIA GTC Washington D.C., se destacó cómo este sistema supera significativamente a sus predecesores en términos de rendimiento e inferencia para modelos como DeepSeek-R1. Las mejoras son evidentes también en otros modelos líderes como Kimi K2 Thinking.
Poderando la Inteligencia a Gran Escala
A medida que nos adentramos en una nueva era donde los modelos multimodales son cada vez más comunes, se hace evidente que la arquitectura MoE es fundamental para alcanzar niveles superiores de eficiencia y capacidad. Con el sistema GB200 NVL72, NVIDIA está allanando el camino hacia un futuro donde la inteligencia artificial puede operar a gran escala sin comprometer recursos o rendimiento.
La integración continua de innovaciones tecnológicas permitirá a empresas líderes utilizar estos avances para mejorar sus aplicaciones y flujos de trabajo basados en inteligencia artificial, abriendo nuevas oportunidades dentro del sector tecnológico.