Microsoft Azure ha presentado recientemente la nueva serie de máquinas virtuales NDv6 GB300, que incluye el primer clúster de supercomputación a escala industrial con sistemas NVIDIA GB300 NVL72. Este avance está diseñado específicamente para satisfacer las exigencias de los trabajos de inferencia más complejos en OpenAI.
Este clúster de supercomputación cuenta con más de 4,600 GPUs NVIDIA Blackwell Ultra, interconectadas a través de la plataforma de red NVIDIA Quantum-X800 InfiniBand. La innovadora estrategia de Microsoft combina ingeniería radical en memoria y redes para proporcionar la enorme capacidad computacional necesaria, logrando así un alto rendimiento tanto en inferencia como en entrenamiento para modelos de razonamiento y sistemas de inteligencia artificial.
El logro reciente es el resultado de años de colaboración entre NVIDIA y Microsoft, enfocándose en crear una infraestructura de IA capaz de manejar las cargas más exigentes del sector. Esta iniciativa refuerza el liderazgo estadounidense en innovación tecnológica.
Detalles Técnicos del NVIDIA GB300 NVL72
En el núcleo de la serie NDv6 GB300 se encuentra el sistema NVIDIA GB300 NVL72, que utiliza refrigeración líquida y está diseñado a escala de rack. Cada rack integra 72 GPUs NVIDIA Blackwell Ultra y 36 CPUs NVIDIA Grace, formando una unidad cohesiva que acelera tanto el entrenamiento como la inferencia para modelos masivos de IA.
Este sistema ofrece impresionantes 37 terabytes de memoria rápida y un rendimiento FP4 Tensor Core que alcanza 1.44 exaflops por máquina virtual, creando un espacio unificado esencial para modelos complejos y generativos.
La plataforma NVIDIA Blackwell Ultra se beneficia del completo stack AI de NVIDIA, incluyendo bibliotecas de comunicación colectiva que utilizan nuevos formatos como NVFP4, lo que permite un rendimiento revolucionario en el entrenamiento, así como tecnologías compiladoras como NVIDIA Dynamo para optimizar la inferencia en IA razonadora.
Estructura del Superordenador: NVLink Switch y NVIDIA Quantum-X800 InfiniBand
Para conectar más de 4,600 GPUs Blackwell Ultra en un único superordenador, Microsoft Azure emplea una arquitectura de red NVIDIA diseñada para maximizar tanto el rendimiento dentro del rack como entre racks. Dentro de cada rack GB300 NVL72, el tejido del NVIDIA NVLink Switch proporciona 130 TB/s de ancho de banda directo entre las GPUs, transformando cada rack en un acelerador unificado con un pool compartido de memoria.
A nivel global, el clúster utiliza la plataforma NVIDIA Quantum-X800 InfiniBand, diseñada específicamente para IA a gran escala. Con conectividad que alcanza 800 Gb/s por GPU, garantiza una comunicación fluida entre todos los componentes del sistema.
Además, la arquitectura avanzada del NVIDIA Quantum-X800 incluye capacidades como enrutamiento adaptativo y control basado en telemetría para gestionar la congestión y asegurar el aislamiento del rendimiento durante operaciones críticas.
Pavimentando el Camino hacia el Futuro de la IA
El desarrollo del primer clúster productivo NVIDIA GB300 NVL72 a esta escala ha requerido una reimaginación completa del centro de datos de Microsoft. Desde sistemas personalizados de refrigeración líquida hasta una pila software reingenierizada para orquestación y almacenamiento, este hito representa un paso significativo hacia la infraestructura que desbloqueará el futuro potencial de la inteligencia artificial.
A medida que Azure avanza hacia su objetivo de implementar cientos de miles de GPUs Blackwell Ultra, se anticipan aún más innovaciones provenientes clientes como OpenAI. Este desarrollo no solo redefine los límites tecnológicos actuales sino que también establece nuevas expectativas sobre lo que puede lograrse en el campo emergente de la IA.