NVIDIA ha logrado un hito significativo en el ámbito de la inteligencia artificial al barrer en todas las pruebas del MLPerf Training v5.1, una serie de evaluaciones estandarizadas que miden el rendimiento del entrenamiento de modelos de IA. Este éxito se traduce en la entrega del tiempo más rápido para entrenar modelos de lenguaje, sistemas de recomendación, generación de imágenes y redes neuronales gráficas.
La compañía destacó no solo por su rendimiento superior, sino también por ser la única plataforma que presentó resultados en todas las pruebas, lo que pone de manifiesto la rica programabilidad de sus GPUs y la madurez de su pila de software CUDA.
NVIDIA Blackwell Ultra: Innovación y Rendimiento
El sistema rack GB300 NVL72, impulsado por la arquitectura GPU NVIDIA Blackwell Ultra, hizo su debut en esta edición del MLPerf Training tras un desempeño récord en la última ronda de inferencia. Comparado con su predecesor, el modelo Hopper, el nuevo sistema logró más de cuatro veces el rendimiento en el preentrenamiento del modelo Llama 3.1 405B y casi cinco veces en el ajuste fino del Llama 2 70B utilizando la misma cantidad de GPUs.
Estos avances son resultado de mejoras arquitectónicas significativas, incluyendo nuevos Tensor Cores que ofrecen 15 petaflops de computación NVFP4 para IA, así como métodos de entrenamiento innovadores que aprovechan al máximo esta capacidad computacional.
NVFP4: La Clave del Éxito en Entrenamiento
Una pieza fundamental para los resultados excepcionales obtenidos fue el uso de precisión NVFP4 durante los cálculos, algo inédito en la historia del MLPerf Training. Esta técnica permite realizar cálculos más rápidos mediante representaciones de datos con menos bits, aunque esto implica desafíos para mantener la precisión.
Los equipos de NVIDIA han trabajado incansablemente para implementar esta nueva precisión FP4 en el entrenamiento de modelos LLM. La GPU Blackwell puede realizar cálculos FP4 a una velocidad doble respecto a FP8, y con Blackwell Ultra se logra triplicar esa tasa, resultando en un rendimiento computacional notablemente superior.
Nuevos Récords Establecidos por NVIDIA
NVIDIA ha establecido un nuevo récord en el tiempo necesario para entrenar el modelo Llama 3.1 405B, alcanzando solo 10 minutos gracias a la colaboración eficiente de más de 5,000 GPUs Blackwell. Este resultado es 2.7 veces más rápido que cualquier otro obtenido previamente con arquitecturas similares.
Además, se registraron nuevos hitos en dos benchmarks recién incorporados: Llama 3.1 8B y FLUX.1. El modelo compacto Llama 3.1 8B logró un tiempo de entrenamiento récord de 5.2 minutos utilizando hasta 512 GPUs Blackwell Ultra.
Ecosistema Amplio y Colaborativo
El ecosistema NVIDIA demostró su fortaleza con contribuciones destacadas de diversas organizaciones como ASUSTeK, Dell Technologies y Hewlett Packard Enterprise entre otros. NVIDIA continúa innovando a un ritmo acelerado, impulsando mejoras significativas en preentrenamiento y post-entrenamiento que facilitan una adopción más amplia de la inteligencia artificial.
Puedes explorar más datos sobre el rendimiento de NVIDIA visitando el Centro de Rendimiento para Productos Deep Learning.