Tolerancia fallos

Clockwork.io lanza solución innovadora para mejorar la tolerancia a fallos en entrenamiento de IA

alvarogomeztornerogmailcom/18/18/24

jueves 12 de marzo de 2026, 20:17h

Clockwork.io ha lanzado TorchPass, una innovadora solución que mejora la tolerancia a fallos en el entrenamiento de inteligencia artificial (IA) a gran escala. Esta tecnología utiliza migración en vivo de GPU para evitar costosos reinicios causados por fallos de hardware, permitiendo que las cargas de trabajo continúen sin interrupciones. Con esta herramienta, las empresas pueden recuperar millones en capacidad de cómputo al eliminar uno de los principales problemas en la infraestructura de IA: los reinicios catastróficos. TorchPass se integra en la plataforma FleetIQ de Clockwork.io y representa un avance significativo hacia una infraestructura de IA más resiliente y eficiente.

Clockwork.io ha presentado una innovadora solución llamada TorchPass, diseñada para abordar un desafío crítico en la infraestructura de inteligencia artificial (IA). Esta herramienta promete revolucionar el entrenamiento a gran escala al implementar una migración en vivo de GPU, lo que permite mantener las operaciones incluso ante fallos de hardware, evitando así los costosos reinicios que suelen interrumpir el flujo de trabajo.

La empresa, reconocida por su enfoque en Software-Driven AI Fabrics™, ha desarrollado esta nueva clase de tolerancia a fallos como parte integral de su plataforma FleetIQ. Con TorchPass, se busca eliminar uno de los problemas más onerosos en el ámbito del entrenamiento de IA: los reinicios inesperados causados por fallos en la infraestructura.

Tolerancia a Fallos y Eficiencia en el Entrenamiento de IA

Suresh Vasudevan, CEO de Clockwork.io, destacó que "las empresas están invirtiendo miles de millones en chips de nueva generación", pero aún enfrentan costes elevados debido a la ineficiencia provocada por los fallos. Según Vasudevan, TorchPass transforma la manera en que se manejan estos incidentes, permitiendo que el entrenamiento continúe sin interrupciones significativas. Esto podría traducirse en un ahorro significativo, estimado en más de 6 millones de dólares anuales para un despliegue típico con 2.048 GPU.

Dylan Patel, fundador y CEO de SemiAnalysis, también subrayó la importancia de esta innovación al señalar que las interrupciones son un obstáculo considerable para el entrenamiento a gran escala. Con la llegada de nuevos clústeres como Blackwell y Rubin Ultra, cualquier error puede resultar inaceptable. TorchPass ofrece una solución mediante la conmutación por error transparente y la migración activa de cargas de trabajo.

Desafíos del Entrenamiento Distribuido y Soluciones Innovadoras

El entrenamiento distribuido sigue siendo uno de los procesos más vulnerables a fallos dentro del ecosistema tecnológico actual. Investigaciones indican que el tiempo medio hasta el fallo puede ser tan corto como 1.8 horas en clústeres masivos. Esto implica que muchas organizaciones dedicadas a IA deben lidiar constantemente con reinicios forzados que afectan gravemente su productividad.

Estos reinicios no solo representan pérdidas temporales, sino que también limitan la utilización efectiva de las GPU, convirtiendo la fiabilidad en un coste oculto significativo. La propuesta de TorchPass es gestionar proactivamente estos fallos antes de que impacten negativamente en las operaciones.

Impulsando la Fiabilidad y Eficiencia Operativa

Con TorchPass, las empresas pueden mantener sus cargas de trabajo operativas mientras resuelven problemas potenciales en GPU afectadas. Esto resulta crucial tanto para aquellas que ejecutan grandes volúmenes de trabajo como para proveedores de nube, quienes ahora pueden ofrecer mejores acuerdos a sus clientes gracias a una mayor fiabilidad y eficiencia operativa.

David Power, CTO de Nscale, enfatizó cómo esta tecnología permite gestionar eficazmente la producción computacional en clústeres extensos. Al implementar TorchPass, se asegura que cualquier GPU defectuosa sea reemplazada sin afectar el rendimiento general del sistema.

Tendencias Futuras en Infraestructura IA

TorchPass no solo representa un avance inmediato; también establece un nuevo estándar para la infraestructura futura al convertir la fiabilidad en una capacidad definida por software. Esto es fundamental para sistemas altamente acoplados como los NVIDIA GB200 y GB300 NVL72.

Para aquellos interesados en conocer más sobre esta innovadora solución o interactuar directamente con el equipo detrás del desarrollo, Clockwork.io estará presente en NVIDIA GTC 2026 del 16 al 19 de marzo.

Acerca de Clockwork.io

Clockwork.io es pionera en soluciones basadas en Software-Driven AI Fabrics™, ofreciendo herramientas programables que optimizan clústeres IA para garantizar su observabilidad y resiliencia. Su plataforma FleetIQ permite a diversas empresas manejar cargas laborales complejas con rapidez y eficiencia económica. Compañías como Uber y Wells Fargo confían en sus tecnologías para potenciar su infraestructura IA.