NVIDIA lanza el conjunto de datos Granary, con 1 millón de horas de audio, para mejorar la transcripción y traducción en 25 idiomas europeos, impulsando la innovación en inteligencia artificial de voz.
NVIDIA ha lanzado un nuevo conjunto de datos denominado Granary, que incluye aproximadamente 1 millón de horas de audio, destinado a entrenar modelos de inteligencia artificial (IA) para la transcripción y traducción de voz. Este avance busca abordar la escasez de soporte para las lenguas en el ámbito de la inteligencia artificial, donde solo un pequeño porcentaje de los cerca de 7,000 idiomas existentes cuentan con el respaldo adecuado.
El nuevo conjunto de datos y los modelos asociados permitirán a los desarrolladores escalar aplicaciones de IA que ofrezcan tecnología de reconocimiento y traducción del habla con rapidez y precisión. En total, se ofrecerán herramientas para 25 lenguas europeas, incluyendo aquellas con menos recursos disponibles como el croata, estonio y maltés.
Entre las herramientas disponibles se encuentra Granary, una vasta colección de conjuntos de datos multilingües que abarca alrededor de 650,000 horas dedicadas al reconocimiento del habla y más de 350,000 horas para la traducción del mismo. También destaca el modelo NVIDIA Canary-1b-v2, diseñado específicamente para lograr una transcripción precisa en lenguas europeas y facilitar la traducción entre inglés y otros idiomas.
Este modelo ha demostrado su eficacia al situarse en lo más alto del ranking de modelos abiertos para reconocimiento del habla multilingüe en Hugging Face. Por otro lado, NVIDIA Parakeet-tdt-0.6b-v3 es otro modelo destacado que prioriza la velocidad y está optimizado para tareas en tiempo real o grandes volúmenes, logrando una alta eficiencia en la transcripción.
El desarrollo del conjunto de datos Granary fue posible gracias a la colaboración entre el equipo de IA del habla de NVIDIA y académicos de instituciones como Carnegie Mellon University y Fondazione Bruno Kessler. Utilizando un innovador proceso impulsado por el NVIDIA NeMo Speech Data Processor, lograron transformar audio no etiquetado en datos estructurados y de alta calidad sin necesidad de anotaciones humanas extensivas.
Esto permite a los desarrolladores comenzar a construir modelos que aborden tareas complejas relacionadas con la transcripción y traducción en casi todos los idiomas oficiales de la Unión Europea, además del ruso y ucraniano. Con este enfoque, Granary se convierte en un recurso crucial para desarrollar tecnologías lingüísticas inclusivas que reflejen mejor la diversidad cultural del continente.
Los nuevos modelos Canary y Parakeet son ejemplos claros del potencial que ofrece Granary. Mientras que Canary-1b-v2 se centra en tareas complejas con alta precisión, Parakeet-tdt-0.6b-v3 está diseñado para operaciones rápidas con baja latencia. Al compartir esta metodología, NVIDIA facilita a la comunidad global de desarrolladores adaptar este flujo de trabajo a otros modelos o idiomas adicionales.
Además, ambos modelos proporcionan resultados precisos con puntuación adecuada, capitalización correcta y marcas temporales a nivel palabra en sus salidas. Esta combinación promete revolucionar el campo del reconocimiento automático del habla (ASR) y la traducción automática (AST), permitiendo un acceso más amplio a tecnologías avanzadas en múltiples idiomas.