Actualidad

NVIDIA lanza un conjunto de datos y modelos para la inteligencia artificial del habla multilingüe

Inteligencia Artificial

- Facebook
- Twitter
- Whatsapp
- Telegram
- Email

José Enrique González | Sábado 16 de agosto de 2025

NVIDIA lanza el conjunto de datos Granary, con 1 millón de horas de audio, para mejorar la transcripción y traducción en 25 idiomas europeos, impulsando la innovación en inteligencia artificial de voz.

NVIDIA ha lanzado un nuevo conjunto de datos denominado Granary, que incluye aproximadamente 1 millón de horas de audio, destinado a entrenar modelos de inteligencia artificial (IA) para la transcripción y traducción de voz. Este avance busca abordar la escasez de soporte para las lenguas en el ámbito de la inteligencia artificial, donde solo un pequeño porcentaje de los cerca de 7,000 idiomas existentes cuentan con el respaldo adecuado.

El nuevo conjunto de datos y los modelos asociados permitirán a los desarrolladores escalar aplicaciones de IA que ofrezcan tecnología de reconocimiento y traducción del habla con rapidez y precisión. En total, se ofrecerán herramientas para 25 lenguas europeas, incluyendo aquellas con menos recursos disponibles como el croata, estonio y maltés.

Innovaciones en Reconocimiento y Traducción Multilingüe

Entre las herramientas disponibles se encuentra Granary, una vasta colección de conjuntos de datos multilingües que abarca alrededor de 650,000 horas dedicadas al reconocimiento del habla y más de 350,000 horas para la traducción del mismo. También destaca el modelo NVIDIA Canary-1b-v2, diseñado específicamente para lograr una transcripción precisa en lenguas europeas y facilitar la traducción entre inglés y otros idiomas.

Este modelo ha demostrado su eficacia al situarse en lo más alto del ranking de modelos abiertos para reconocimiento del habla multilingüe en Hugging Face. Por otro lado, NVIDIA Parakeet-tdt-0.6b-v3 es otro modelo destacado que prioriza la velocidad y está optimizado para tareas en tiempo real o grandes volúmenes, logrando una alta eficiencia en la transcripción.

Colaboración Académica para el Desarrollo del Dataset Granary

El desarrollo del conjunto de datos Granary fue posible gracias a la colaboración entre el equipo de IA del habla de NVIDIA y académicos de instituciones como Carnegie Mellon University y Fondazione Bruno Kessler. Utilizando un innovador proceso impulsado por el NVIDIA NeMo Speech Data Processor, lograron transformar audio no etiquetado en datos estructurados y de alta calidad sin necesidad de anotaciones humanas extensivas.

Esto permite a los desarrolladores comenzar a construir modelos que aborden tareas complejas relacionadas con la transcripción y traducción en casi todos los idiomas oficiales de la Unión Europea, además del ruso y ucraniano. Con este enfoque, Granary se convierte en un recurso crucial para desarrollar tecnologías lingüísticas inclusivas que reflejen mejor la diversidad cultural del continente.

Acelerando la Innovación en IA con NVIDIA NeMo

Los nuevos modelos Canary y Parakeet son ejemplos claros del potencial que ofrece Granary. Mientras que Canary-1b-v2 se centra en tareas complejas con alta precisión, Parakeet-tdt-0.6b-v3 está diseñado para operaciones rápidas con baja latencia. Al compartir esta metodología, NVIDIA facilita a la comunidad global de desarrolladores adaptar este flujo de trabajo a otros modelos o idiomas adicionales.

Además, ambos modelos proporcionan resultados precisos con puntuación adecuada, capitalización correcta y marcas temporales a nivel palabra en sus salidas. Esta combinación promete revolucionar el campo del reconocimiento automático del habla (ASR) y la traducción automática (AST), permitiendo un acceso más amplio a tecnologías avanzadas en múltiples idiomas.

TEMAS RELACIONADOS:

NVIDIA

Inteligencia Artificial

Desarrollo de Software

Noticias relacionadas

Mostrar comentarios +

IR A VERSIÓN COMPLETA

Política de privacidad y cookies | Aviso Legal

https://iymagazine.es/

Actualidad

NVIDIA lanza un conjunto de datos y modelos para la inteligencia artificial del habla multilingüe

Inteligencia Artificial

Innovaciones en Reconocimiento y Traducción Multilingüe

Colaboración Académica para el Desarrollo del Dataset Granary

Acelerando la Innovación en IA con NVIDIA NeMo

TEMAS RELACIONADOS:

Noticias relacionadas

Congreso Internacional sobre Ética y Traducción en la Facultad de Filología

Capgemini lanza BabelSpeak, su herramienta de traducción AI con resultados prometedores

Little Feet Pediatric Therapy presenta un nuevo servicio de terapia del habla para niños

GlobaLang lanza su edición personal: traducción offline en 59 idiomas para Android

Traditur se establece como el principal congreso sobre traducción y turismo

Mostrar comentarios +