Un equipo de la Universitat Politècnica de València, que forma parte del Instituto Universitario Valenciano de Investigación en Inteligencia Artificial (VRAIN) y de ValgrAI, ha desarrollado una innovadora metodología denominada ADeLe. Esta herramienta tiene como objetivo ofrecer explicaciones y predicciones precisas sobre el éxito de los grandes modelos de lenguaje de inteligencia artificial (LLMs) en tareas específicas que aún no han sido ejecutadas.
ADeLe se presenta como un avance significativo en comparación con las metodologías actuales, que solo evalúan el comportamiento de un modelo en pruebas concretas. Gracias a su enfoque más cognitivo, ADeLe permite anticipar errores antes del lanzamiento de nuevos modelos, ofreciendo así la posibilidad de identificar fallos antes de que se conviertan en problemas reales para las industrias.
Anticipación precisa del rendimiento de la IA
El investigador Fernando Martínez-Plumed, del equipo VRAIN, destaca que esta nueva metodología puede predecir con cerca del 90% de precisión si un modelo resolverá o no una tarea nueva antes de ser implementado. Esto representa una ventaja crucial para las empresas, ya que les permite detectar problemas a tiempo y evitar los elevados costos asociados al lanzamiento de sistemas que no cumplen con las expectativas.
Dada la rápida evolución y penetración de la inteligencia artificial, este avance es vital para investigadores, empresas y reguladores. La evaluación rigurosa y estandarizada de las capacidades de la IA es cada vez más necesaria, especialmente cuando se realizan auditorías de seguridad.
Nueva metodología exhaustiva y escalable
En el artículo publicado se señala que “la evaluación actual de la IA no satisface las exigencias del ecosistema en constante cambio”. ADeLe aborda las limitaciones tradicionales al proporcionar una metodología exhaustiva y escalable que mejora la capacidad explicativa y predictiva.
El estudio fue realizado por un equipo compuesto por expertos como el catedrático José Hernández-Orallo y el profesor Fernando Martínez-Plumed, junto con varios doctorandos. La investigación identifica 18 dimensiones cognitivas clave a partir de las cuales se pueden evaluar los modelos de IA. Estas dimensiones incluyen aspectos como la atención, el razonamiento y la singularidad de cada tarea.
Hallazgos significativos sobre el rendimiento de la IA
A través del uso de ADeLe, los investigadores han llegado a cuatro conclusiones fundamentales: primero, las pruebas actuales no miden adecuadamente lo que pretenden; segundo, los modelos presentan patrones distintos según su tamaño y metodología; tercero, ADeLe ofrece predicciones precisas sobre el éxito o fracaso en nuevas tareas; y cuarto, existe cierta confusión respecto a la capacidad razonadora de los modelos según el nivel de dificultad requerido por diferentes pruebas.
Los autores subrayan que “ADeLe proporciona una imagen clara: los modelos avanzados muestran mejoras cuantificables no solo en lógica y matemáticas, sino también en áreas inesperadas como la comprensión del lenguaje natural”. Este estudio ha sido elaborado por investigadores destacados provenientes no solo de la Universitat Politècnica de València sino también instituciones reconocidas como la Universidad de Cambridge y Carnegie Mellon.