Actualidad

La era de los centros de datos de gigavatios para la inteligencia artificial está aquí

Centros de datos

José Enrique González | Viernes 22 de agosto de 2025

Las fábricas de IA están transformando la infraestructura de datos, requiriendo redes avanzadas y hardware masivo para soportar el entrenamiento de modelos complejos, marcando el inicio de la era de los centros de datos gigawatt.



En todo el mundo, están surgiendo fábricas de inteligencia artificial, enormes centros de datos diseñados no para servir páginas web o correos electrónicos, sino para entrenar y desplegar inteligencia misma. Los gigantes de Internet han invertido miles de millones en infraestructuras de IA a gran escala para sus clientes. Las empresas compiten por construir fundiciones de IA que generen la próxima generación de productos y servicios, mientras que los gobiernos también están invirtiendo, ansiosos por aprovechar la IA para la medicina personalizada y servicios lingüísticos adaptados a sus poblaciones.

Bienvenidos a la era de las fábricas de IA, donde se están reescribiendo las reglas y la infraestructura no se asemeja en nada a la del antiguo internet. Estos no son centros de datos hiperescalables típicos; son algo completamente diferente. Imaginemos motores de alto rendimiento ensamblados a partir de decenas o cientos de miles de unidades de procesamiento gráfico (GPUs), orquestados y operados como una única unidad. Y esa orquestación es el verdadero juego.

Este enorme centro de datos se ha convertido en la nueva unidad de computación, y la forma en que estas GPUs están conectadas define lo que esta unidad puede lograr. No basta con una sola arquitectura de red; se necesita un diseño estratificado con tecnologías punteras, como ópticas empaquetadas que antes parecían ciencia ficción.

La Complejidad como Característica Definitoria

La complejidad no es un error; es una característica definitoria. La infraestructura de IA está divergiendo rápidamente de todo lo que existía anteriormente, y si no se reconsidera cómo se conectan las redes, la escalabilidad se desmorona. Si se cometen errores en las capas de red, toda la máquina puede detenerse. Si se hace correctamente, se puede obtener un rendimiento extraordinario.

Con este cambio viene peso —literalmente—. Hace una década, los chips estaban diseñados para ser ligeros y elegantes. Ahora, lo último en tecnología parece el espinazo de cobre industrial que pesa varios cientos de libras dentro de un rack servidor: manifolds refrigerados por líquido, barras colectoras personalizadas y espinas de cobre. La IA ahora exige hardware masivo e industrial. Cuanto más profundos sean los modelos, más deben escalar estas máquinas.

Por ejemplo, el espinazo NVLink de NVIDIA está construido con más de 5,000 cables coaxiales —tensamente enrollados y cuidadosamente dirigidos— moviendo más datos por segundo que toda la internet: 130 TB/s en ancho de banda GPU a GPU, totalmente interconectado.

El Centro de Datos como Computador

Entrenar los modernos modelos lingüísticos grandes (LLMs) detrás de la IA no consiste solo en utilizar ciclos en una única máquina. Se trata de orquestar el trabajo realizado por decenas o incluso cientos de miles de GPUs que son los verdaderos pilares del cálculo en IA.

Estos sistemas dependen del cálculo distribuido, dividiendo cálculos masivos entre nodos (servidores individuales), donde cada nodo maneja una parte del trabajo. Durante el entrenamiento, esas partes —típicamente matrices masivas— necesitan ser fusionadas y actualizadas regularmente mediante operaciones colectivas como “all-reduce” (que combina datos desde todos los nodos) y “all-to-all” (donde cada nodo intercambia datos con todos los demás).

Estos procesos son sensibles a la velocidad y capacidad del red, lo que los ingenieros denominan latencia (retraso) y ancho de banda (capacidad). Esto puede causar interrupciones durante el entrenamiento.

Desafíos en Inferencia

Para la inferencia —el proceso mediante el cual se ejecutan modelos entrenados para generar respuestas o predicciones— los desafíos cambian. Los sistemas de generación aumentada por recuperación, que combinan LLMs con búsqueda, requieren consultas y respuestas en tiempo real. En entornos cloud, la inferencia multi-inquilino implica mantener cargas laborales diferentes funcionando sin interferencias mutuas. Esto exige redes ultrarrápidas capaces manejar demandas masivas con estricta separación entre usuarios.

El Ethernet tradicional fue diseñado para cargas laborales en un solo servidor —no para las exigencias distribuidas que presenta la IA— donde tolerar fluctuaciones e inconsistencias solía ser aceptable pero ahora representa un cuello de botella. Las arquitecturas tradicionales nunca fueron concebidas para ofrecer un rendimiento predecible y consistente; ese legado aún influye sobre sus últimas generaciones.

El cómputo distribuido requiere una infraestructura diseñada para operar sin fluctuaciones —capaz manejar picos extremos en el tráfico— entregar baja latencia y mantener un rendimiento predecible constante mientras aísla ruidos en la red. Por ello, el networking InfiniBand es considerado el estándar dorado para supercomputadoras y fábricas AI.

NVIDIA Quantum InfiniBand: Redefiniendo Operaciones Colectivas

Con NVIDIA Quantum InfiniBand, las operaciones colectivas se realizan dentro mismo del red, utilizando tecnología Scalable Hierarchical Aggregation and Reduction Protocol, duplicando así el ancho de banda disponible para reducciones. Este sistema emplea rutas adaptativas y control basado en telemetría para distribuir flujos a través múltiples caminos garantizando ancho fijo determinista mientras aísla ruidos externos. Estas optimizaciones permiten escalar comunicacion AI con precisión.

NVIDIA Quantum-X800, por ejemplo, impulsa InfiniBand hacia nuevas alturas al proporcionar 144 puertos con conectividad a 800 Gbps integrando SHARPv4 basado en hardware junto con control adaptativo contra congestión.
Esta plataforma incorpora fotonica empaquetada, minimizando distancias entre electrónica y óptica mientras reduce consumo energético y latencia.

Spectrum-X Ethernet: Innovación Empresarial

Spectrum-X redefine Ethernet específicamente para AI. Lanzado en 2023,Spectrum-X ofrece redes sin pérdidas, rutas adaptativas e aislamiento del rendimiento necesario para grandes escalas operativas.

Spectrum-X es completamente compatible con estándares Ethernet convencionales además soportar Cumulus Linux así como el sistema operativo SONiC open-source. Un ingrediente clave son los SuperNICs basados tanto en BlueField-3 como ConnectX-8,
los cuales ofrecen hasta 800 Gb/s RoCE connectivity .

Afrontando Desafíos Futuros con Open Standards

Spectrum-X y NVIDIA Quantum InfiniBand están construidos sobre estándares abiertos.

Spectrum-X es completamente compatible con Ethernet estándar apoyándose sobre pilas abiertas como SONiC mientras NVIDIA Quantum InfiniBand cumple especificaciones establecidas por InfiniBand Trade Association.
Elementos clave dentro del stack software NVIDIA —incluyendo bibliotecas NCCL y DOCA— funcionan sobre diversos hardware permitiendo integración por parte socios como Cisco o Dell Technologies.
Los estándares abiertos crean bases sólidas pero clústeres AI reales requieren optimización estrecha abarcando toda pila —GPUs NICs switches cables software— donde proveedores invierten recursos entregando mejor latencia rendimiento general.

Caminando hacia Fábricas AI Millonarias

Las fábricas AI están creciendo rápidamente.
Gobiernos europeos construyen siete fábricas nacionales mientras proveedores cloud empresas Japón India Noruega despliegan infraestructura impulsada por NVIDIA . El horizonte siguiente incluye instalaciones clase gigavatio con un millón GPUs.
Para llegar allí debe evolucionar red desde simple consideración hasta pilar fundamental infraestructura AI.

La lección aprendida durante esta era es clara: el centro datos ahora constituye computador mismo.
NVLink conecta GPUs dentro rack mientras NVIDIA Quantum InfiniBand las escala fuera.
Spectrum-X extiende ese rendimiento hacia mercados más amplios mientras fotónica silicio garantiza sostenibilidad.
Todo abierto donde importa optimizado donde cuenta.

TEMAS RELACIONADOS:


Noticias relacionadas