Baseten, DeepInfra, Fireworks AI y Together AI están revolucionando el sector de la inteligencia artificial al reducir significativamente los costos por token en diversas industrias. Estas empresas han optimizado sus pilas de inferencia utilizando la plataforma NVIDIA Blackwell, logrando una disminución de hasta un 10x en comparación con plataformas anteriores.
Las interacciones impulsadas por inteligencia artificial son cada vez más comunes, desde diagnósticos en el ámbito sanitario hasta diálogos en videojuegos interactivos. Cada una de estas interacciones se basa en un elemento clave: el token. Para escalar estas interacciones, las empresas deben considerar la viabilidad económica de incrementar su uso de tokens, lo que implica mejorar la *tokenomics* o economía de tokens.
Reducción de Costos en IA: Un Enfoque Eficiente
Un estudio reciente del MIT ha revelado que las eficiencias tanto en infraestructura como en algoritmos están permitiendo reducir los costos de inferencia para lograr un rendimiento a nivel frontera hasta en un 10x anualmente. Esta tendencia se asemeja a una imprenta de alta velocidad: si esta puede producir diez veces más con una inversión incremental en insumos, el costo por página impresa disminuye notablemente. De igual manera, invertir en infraestructura de IA puede resultar en una mayor producción de tokens sin un aumento proporcional en los costos.
Por esta razón, empresas líderes como Baseten, DeepInfra, Fireworks AI y Together AI están adoptando la plataforma NVIDIA Blackwell para optimizar sus modelos abiertos y alcanzar niveles de inteligencia fronteriza. La combinación del hardware y software extremo diseñado por NVIDIA junto con sus propias pilas de inferencia personalizadas permite a estas compañías ofrecer reducciones significativas en los costos por token.
Ahorros Notables en el Sector Salud
En el ámbito sanitario, tareas rutinarias como la codificación médica y la gestión de formularios pueden consumir tiempo valioso que los médicos podrían dedicar a sus pacientes. La empresa Sully.ai ha desarrollado "empleados IA" capaces de manejar estas tareas repetitivas. Sin embargo, su modelo cerrado original presentaba problemas como latencias impredecibles y costos que escalaban más rápido que los ingresos.
Para superar estos obstáculos, Sully.ai implementó la API de Modelos de Baseten, utilizando modelos abiertos sobre GPUs NVIDIA Blackwell. Esto permitió que sus costos de inferencia cayeran un 90%, mejorando además los tiempos de respuesta críticos para flujos clínicos importantes como la generación de notas médicas.
Evolución del Juego: Reducción del Costo por Token
Latitude, dedicada a crear experiencias innovadoras dentro del mundo del gaming con su juego basado en texto AI Dungeon, enfrentó desafíos similares al escalar su plataforma. Cada acción del jugador genera una solicitud de inferencia, lo que incrementa los costos conforme aumenta el compromiso del usuario.
Aprovechando grandes modelos abiertos sobre la plataforma de inferencia DeepInfra alimentada por NVIDIA Blackwell, Latitude logró reducir el costo por millón de tokens significativamente, permitiendo así respuestas rápidas y confiables mientras manejaba picos inesperados en el tráfico sin comprometer la experiencia del jugador.
Ahorros Significativos en Atención al Cliente
La frustración es común entre los usuarios durante las llamadas a servicios al cliente cuando hay retrasos. Decagon ha desarrollado agentes IA para soporte empresarial que requieren respuestas rápidas bajo condiciones variables. Junto con Together AI, han optimizado su infraestructura para garantizar tiempos de respuesta inferiores a 400 milisegundos incluso bajo cargas pesadas.
Como resultado, Decagon experimentó una reducción del costo por consulta hasta seis veces menos comparado con modelos cerrados anteriores. Esta mejora fue posible gracias a la colaboración entre ambas empresas y el uso eficaz del stack optimizado para Blackwell.
NVIDIA Blackwell: Clave para Optimizar Tokenomics
Los notables ahorros observados en sectores como salud y atención al cliente son testimonio del impacto positivo que tiene NVIDIA Blackwell. Este sistema no solo proporciona un avance significativo hacia la reducción del costo por token sino que también establece las bases para futuras innovaciones mediante su integración con nuevas tecnologías.
A medida que avanzamos hacia plataformas aún más potentes como NVIDIA Rubin —que promete mejorar aún más el rendimiento— queda claro que estamos ante una nueva era donde la eficiencia económica será fundamental para impulsar el desarrollo continuo de soluciones basadas en inteligencia artificial.