La nueva plataforma NVIDIA Blackwell Ultra ofrece hasta 50 veces mejor rendimiento y reduce costos en un 35% para aplicaciones de inteligencia artificial, optimizando la eficiencia en codificación y asistentes interactivos.
La plataforma NVIDIA Blackwell ha sido adoptada por destacados proveedores de inferencia como Baseten, DeepInfra, Fireworks AI y Together AI, quienes buscan reducir el costo por token hasta en un 10x. Ahora, la nueva plataforma NVIDIA Blackwell Ultra está llevando este impulso aún más lejos en el ámbito de la inteligencia artificial agentic.
El crecimiento explosivo de los agentes de IA y asistentes de codificación ha llevado a un aumento significativo en las consultas relacionadas con programación: del 11% al 50% el año pasado, según el informe de estado de inferencia de OpenRouter. Estas aplicaciones requieren baja latencia para mantener una respuesta en tiempo real a través de flujos de trabajo complejos y un contexto amplio al razonar sobre bases de código completas.
Los datos recientes de rendimiento de SemiAnalysis InferenceX indican que la combinación de optimizaciones de software y la plataforma NVIDIA Blackwell Ultra han logrado avances significativos en ambos frentes. Los sistemas NVIDIA GB300 NVL72 ahora ofrecen hasta 50 veces más rendimiento por megavatio, lo que se traduce en una reducción del costo por token hasta en un 35% en comparación con la plataforma NVIDIA Hopper.
A través de innovaciones en chips, arquitectura del sistema y software, el diseño extremo colaborativo de NVIDIA acelera el rendimiento en cargas de trabajo de IA, desde codificación agentic hasta asistentes interactivos, mientras reduce costos a gran escala.
Un análisis reciente realizado por Signal65 muestra que el hardware y software optimizado del NVIDIA GB200 NVL72 proporciona más de 10 veces más tokens por vatio, resultando en una décima parte del costo por token comparado con la plataforma Hopper. Estos impresionantes incrementos en rendimiento continúan expandiéndose a medida que mejora la pila subyacente.
Las optimizaciones continuas provenientes del equipo TensorRT-LLM, junto con NVIDIA Dynamo, Mooncake y SGLang, están aumentando significativamente el rendimiento del Blackwell NVL72 para la inferencia basada en mezcla de expertos (MoE) a través de todos los objetivos de latencia. Por ejemplo, las mejoras en la biblioteca TensorRT-LLM han logrado hasta 5 veces mejor rendimiento en GB200 para cargas críticas con baja latencia comparado con hace solo cuatro meses.
Aprovechando estos avances, el GB300 NVL72 —que cuenta con la GPU Blackwell Ultra— lleva el límite del rendimiento por megavatio a 50 veces más que la plataforma Hopper. Esta mejora se traduce en una economía superior, donde los costos se reducen drásticamente especialmente bajo condiciones de baja latencia, esenciales para aplicaciones agentic: hasta un 35% menos costo por millón de tokens frente a la plataforma Hopper.
Tanto el GB200 NVL72 como el GB300 NVL72 ofrecen eficiencias notables en términos de latencia ultrabaja; sin embargo, las ventajas distintivas del GB300 son evidentes en escenarios que requieren contextos largos. Para cargas que manejan entradas de 128,000 tokens y salidas de 8,000 tokens —como los asistentes AI dedicados a razonamientos sobre bases extensas— el GB300 NVL72 logra un costo por token hasta un 1.5 veces menor que su predecesor.
A medida que aumenta el contexto leído por el agente dentro del código, se requiere mayor capacidad computacional. La arquitectura Blackwell Ultra presenta un rendimiento computacional NVFP4 1.5 veces superior y procesamiento atencional dos veces más rápido, facilitando así una comprensión eficiente sobre grandes bases de código.
Proveedores líderes como Microsoft, CoreWeave y OCI, ya están implementando el GB300 NVL72 para casos prácticos que requieren baja latencia y contextos extensos como codificación agentic. Al reducir los costos por token, esta tecnología habilita aplicaciones capaces de razonar sobre vastas bases codificadas en tiempo real.
"A medida que la inferencia se convierte en un elemento central dentro de la producción AI, el rendimiento a largo plazo y la eficiencia del token son críticos", afirmó Chen Goldberg, vicepresidente senior de ingeniería en CoreWeave. "El Grace Blackwell NVL72 aborda directamente ese desafío". La nube AI diseñada por CoreWeave busca traducir las ganancias obtenidas con los sistemas GB300 hacia un rendimiento predecible y eficiencia económica.
A medida que los sistemas NVIDIA Blackwell se despliegan ampliamente, las continuas optimizaciones seguirán desbloqueando mejoras adicionales tanto en rendimiento como en costos. Mirando hacia adelante, la plataforma NVIDIA Rubin, compuesta por seis nuevos chips para crear un superordenador AI, promete ofrecer otra ronda significativa de aumentos en rendimiento. En términos específicos para MoE inference, promete hasta diez veces más rendimiento por megavatio comparado con Blackwell.
Para obtener más información sobre la plataforma NVIDIA Rubin y el sistema Vera Rubin NVL72.