Las lenguas celtas, que incluyen el Cornish, el Irlandés, el Gaélico Escocés y el Galés, son las lenguas vivas más antiguas del Reino Unido. Con el objetivo de empoderar a sus hablantes, la iniciativa UK-LLM está desarrollando un modelo de inteligencia artificial basado en NVIDIA Nemotron, que permitirá razonar tanto en inglés como en galés, una lengua hablada por aproximadamente 850,000 personas en Gales.
La capacidad de ofrecer razonamiento de alta calidad en galés apoyará la prestación de servicios públicos, incluyendo atención sanitaria, educación y recursos legales en este idioma.
Compromiso del Gobierno Británico con la IA para Todos
“Deseo que cada rincón del Reino Unido pueda aprovechar los beneficios de la inteligencia artificial. Al permitir que la IA razone en galés, nos aseguramos de que los servicios públicos —desde la salud hasta la educación— sean accesibles para todos, en el idioma que utilizan a diario”, afirmó el Primer Ministro británico Keir Starmer. “Este es un poderoso ejemplo de cómo la tecnología más avanzada, entrenada en el superordenador más sofisticado del Reino Unido en Bristol, puede servir al bien público, proteger nuestro patrimonio cultural y desbloquear oportunidades en todo el país”.
El proyecto UK-LLM fue establecido en 2023 como BritLLM y está liderado por University College London. Hasta ahora ha lanzado dos modelos para lenguas del Reino Unido. Su nuevo modelo para el galés se ha desarrollado en colaboración con la Universidad de Bangor y NVIDIA, alineándose con los esfuerzos del gobierno galés para aumentar el uso activo del idioma, con la meta de alcanzar un millón de hablantes para 2050 bajo la iniciativa conocida como Cymraeg 2050.
Nueva Tecnología para Impulsar el Galés
El proveedor de nube de IA con sede en el Reino Unido, Nscale, hará disponible este nuevo modelo a los desarrolladores a través de su interfaz de programación de aplicaciones (API).
“El objetivo es asegurar que el galés siga siendo una lengua viva y vibrante que continúe evolucionando con los tiempos”, comentó Gruffudd Prys, terminólogo senior y jefe de la Unidad de Tecnologías Lingüísticas en Canolfan Bedwyr, el centro universitario para servicios lingüísticos galeses. “La inteligencia artificial tiene un potencial enorme para ayudar tanto a quienes aprenden galés como a los hablantes nativos que desean mejorar sus habilidades lingüísticas”.
Este nuevo modelo también podría mejorar la accesibilidad de los recursos en galés al permitir que instituciones públicas y empresas operando en Gales traduzcan contenido o proporcionen servicios de chatbot bilingües. Esto beneficiaría a grupos como proveedores de salud, educadores, medios de comunicación y propietarios de restaurantes al garantizar que su contenido escrito esté tan disponible en galés como lo está en inglés.
Aspiraciones Más Allá del Galés
Aparte del galés, el equipo UK-LLM planea aplicar la misma metodología utilizada para su nuevo modelo al desarrollo de modelos de IA para otras lenguas habladas en el Reino Unido como Cornish, Irish, Scots y Scottish Gaelic. Además, colaborarán con socios internacionales para construir modelos para idiomas provenientes de África y del sudeste asiático.
"Esta colaboración con NVIDIA y Bangor University nos permitió crear nuevos datos de entrenamiento y desarrollar un nuevo modelo en tiempo récord", destacó Pontus Stenetorp, profesor de procesamiento del lenguaje natural y director adjunto del Centro de Inteligencia Artificial en University College London. "Nuestro objetivo es aplicar las lecciones aprendidas del modelo galés a otros idiomas minoritarios dentro del Reino Unido y globalmente".
Métodos Avanzados para Desarrollo Lingüístico Eficiente
El nuevo modelo para el galés se basa en NVIDIA Nemotron, una familia de modelos open-source que incluye pesos abiertos, conjuntos de datos y recetas. El equipo desarrollador UK-LLM ha utilizado tanto el supermodelo Llama Nemotron con 49 mil millones de parámetros como el modelo Nemotron Nano con 9 mil millones de parámetros, aplicando post-entrenamiento sobre datos lingüísticos galeses.
Dado que hay menos datos disponibles para entrenar IA en galés comparado con idiomas como inglés o español, se generó un conjunto suficientemente grande utilizando microservicios NVIDIA NIM para traducir conjuntos abiertos con más de 30 millones de entradas desde inglés a galés.
Aprovecharon un clúster GPU mediante la plataforma NVIDIA DGX Cloud Lepton y utilizaron cientos de chips NVIDIA GH200 Grace Hopper sobre Isambard-AI —el superordenador más potente del Reino Unido— respaldado por una inversión gubernamental superior a £225 millones. Esto aceleró sus cargas laborales tanto en traducción como entrenamiento.
Estrategias Cuidadosas Para Capturar Matices Lingüísticos
La Universidad Bangor está contribuyendo al desarrollo del nuevo modelo aportando su experiencia lingüística y cultural. Prys cuenta con cerca de dos décadas dedicadas a tecnologías lingüísticas relacionadas con el galés. Él y su equipo están verificando la precisión tanto del dato traducido automáticamente como del evaluado manualmente. También evalúan cómo maneja el modelo los matices específicos del galés que suelen ser complicados para las IA.
Se espera que tanto el modelo como los conjuntos educativos galeses estén disponibles tanto para empresas como para entidades públicas, apoyando investigaciones adicionales así como entrenamientos modelísticos.
"Tener esta capacidad IA disponible es solo parte del desafío; hacerlo accesible es igualmente crucial", concluyó Prys. "Esa distinción puede marcar una gran diferencia entre si esta tecnología se utiliza o no".