iymagazine.es

Tecnología GPU

NVIDIA logra un récord en procesamiento de gráficos con su plataforma en la nube CoreWeave
Ampliar

NVIDIA logra un récord en procesamiento de gráficos con su plataforma en la nube CoreWeave

Por José Enrique González
x
jenriqueiymagazinees/8/8/19
miércoles 10 de diciembre de 2025, 10:24h
Última actualización: viernes 12 de diciembre de 2025, 13:01h

NVIDIA logró un récord en procesamiento de gráficos, alcanzando 410 billones de bordes recorridos por segundo con 8,192 GPUs H100 en la plataforma de CoreWeave, superando a competidores significativamente.

El sistema de procesamiento gráfico más eficiente del mundo ha sido creado sobre un clúster comercialmente disponible. En un anuncio reciente, NVIDIA reveló un resultado récord: **410 billones de bordes recorridos por segundo (TEPS)**, posicionándose en el primer lugar de la lista 31 del Graph500, que mide la búsqueda en amplitud (BFS).

Este hito se logró en un clúster de computación acelerada alojado en un centro de datos de CoreWeave en Dallas, utilizando **8,192 GPUs NVIDIA H100** para procesar un grafo con **2.2 billones de vértices y 35 billones de bordes**. Este rendimiento es más del doble que el de soluciones comparables en la lista, incluidas las que se encuentran en laboratorios nacionales.

Para entender mejor este logro, imagina que cada persona en el planeta tiene 150 amigos; esto representaría **1.2 billones de bordes** en un grafo social. La capacidad recientemente alcanzada por NVIDIA y CoreWeave permite explorar todas estas relaciones en aproximadamente tres milisegundos.

Eficiencia y rendimiento sin precedentes

La velocidad no es el único aspecto destacado; la eficiencia también juega un papel crucial. Una entrada comparable entre las diez mejores del Graph500 utilizó cerca de **9,000 nodos**, mientras que la ejecución ganadora de NVIDIA empleó poco más de **1,000 nodos**, logrando así un rendimiento tres veces superior por dólar invertido.

NVIDIA ha aprovechado su conjunto completo de tecnologías computacionales, incluyendo la plataforma NVIDIA CUDA, redes Spectrum-X y GPUs H100, junto con una nueva biblioteca de mensajería activa para empujar los límites del rendimiento mientras minimiza el uso de hardware.

Este triunfo demuestra cómo la plataforma computacional de NVIDIA está preparada para democratizar el acceso a la aceleración de cargas laborales irregulares y dispersas a gran escala, además de las densas como el entrenamiento en inteligencia artificial.

Entendiendo los grafos a gran escala

Los grafos son estructuras informativas fundamentales para la tecnología moderna. Los usuarios interactúan con ellos a diario en redes sociales y aplicaciones bancarias. Capturan relaciones entre información en vastas redes interconectadas.

Tomemos como ejemplo a LinkedIn: el perfil de un usuario representa un vértice, mientras que sus conexiones son los bordes que los relacionan con otros usuarios. Algunos pueden tener cinco conexiones, otros hasta **50,000**, lo que genera una densidad variable y hace que el grafo sea irregular y disperso.

El Graph500 BFS es reconocido como el estándar industrial porque evalúa la capacidad del sistema para navegar esta irregularidad a gran escala.

Técnicas actuales para procesar grafos

A pesar del reconocimiento generalizado de las GPUs por acelerar cargas densas como el entrenamiento AI, hasta hace poco los trabajos más grandes relacionados con álgebra lineal dispersa y grafos habían permanecido dominados por arquitecturas tradicionales basadas en CPU.

En este contexto, las CPUs trasladan los datos del grafo entre nodos computacionales. A medida que el grafo crece hacia trillones de bordes, este movimiento constante provoca cuellos de botella y problemas en la comunicación.

Los desarrolladores han implementado varias técnicas para sortear estos desafíos. Un enfoque común consiste en procesar los datos donde están mediante mensajes activos; estos mensajes son más pequeños y pueden agruparse para maximizar la eficiencia de la red.

Reingeniería del procesamiento gráfico para GPU

NVIDIA ha diseñado una solución integral exclusivamente basada en GPU que redefine cómo se mueve la información a través de la red para acelerar las ejecuciones BFS.

A través del desarrollo de un marco software personalizado utilizando InfiniBand GPUDirect Async (IBGDA), se permite que las GPUs se comuniquen directamente con la tarjeta interfaz InfiniBand. Esta innovación ha sido diseñada desde cero para soportar cientos de miles de hilos GPU enviando mensajes activos simultáneamente.

Con esta arquitectura reimaginada, la mensajería activa opera completamente sobre GPUs, evitando así depender del CPU. Esto permite aprovechar al máximo la paralelización masiva y el ancho de banda disponible en las GPUs H100 para enviar mensajes, moverlos a través de la red y procesarlos eficientemente al recibirlos.

Acelerando nuevas cargas laborales

Este avance tiene implicaciones significativas para la computación de alto rendimiento (HPC). Campos como dinámica de fluidos y pronósticos meteorológicos dependen también de estructuras y patrones comunicativos similares a aquellos utilizados por los grafos subyacentes a redes sociales y ciberseguridad.

A lo largo de décadas, estas disciplinas han estado limitadas a CPUs incluso cuando los datos escalan desde miles millones hasta trillones. El resultado ganador obtenido por NVIDIA en Graph500 valida un nuevo enfoque para HPC a gran escala.

Con esta orquestación integral proporcionada por NVIDIA —que abarca computación, redes y software— los desarrolladores ahora pueden utilizar tecnologías como NVSHMEM e IBGDA para escalar eficientemente sus aplicaciones HPC más grandes, llevando así el rendimiento supercomputacional a infraestructuras disponibles comercialmente.

Valora esta noticia
0
(0 votos)
¿Te ha parecido interesante esta noticia?    Si (0)    No(0)

+
0 comentarios