Tecnología

Mejoran la capacidad de los modelos de IA para explicar sus predicciones

Inteligencia Artificial

Gonzalo Gómez-del Estal | Martes 10 de febrero de 2026

Investigadores del MIT han desarrollado un método que mejora la capacidad de los modelos de IA para explicar sus predicciones, aumentando la precisión y confianza en aplicaciones críticas como la salud y la conducción autónoma.



En entornos críticos como el diagnóstico médico, la confianza en los modelos de inteligencia artificial es fundamental. Los usuarios necesitan comprender las razones detrás de las predicciones realizadas por estos sistemas para decidir si pueden confiar en sus resultados.

La modelización de cuellos de botella conceptuales se presenta como una solución efectiva que permite a los sistemas de IA explicar su proceso de toma de decisiones. Esta metodología obliga a un modelo de aprendizaje profundo a utilizar un conjunto de conceptos comprensibles para los humanos al realizar una predicción. Investigadores del MIT han desarrollado recientemente un método que mejora tanto la precisión del modelo como la claridad y concisión de sus explicaciones.

Mejoras en la explicación de modelos de IA

Los conceptos que utiliza el modelo suelen ser definidos previamente por expertos humanos. Por ejemplo, un clínico podría sugerir términos como “puntos marrones agrupados” y “pigmentación variada” para predecir que una imagen médica muestra melanoma. Sin embargo, estos conceptos predefinidos pueden resultar irrelevantes o carecer del detalle necesario para tareas específicas, lo que disminuye la precisión del modelo.

El nuevo enfoque extrae conceptos que el modelo ha aprendido durante su entrenamiento específico, obligándolo a utilizarlos y generando explicaciones más efectivas que los modelos estándar de cuellos de botella conceptuales. Este método emplea un par de modelos especializados en aprendizaje automático que extraen automáticamente conocimientos del modelo objetivo y los traducen en conceptos comprensibles.

“Queremos poder leer las mentes de estos modelos de visión por computadora. Un modelo de cuello de botella conceptual permite a los usuarios entender qué está pensando el modelo y por qué realizó una predicción determinada. Al utilizar mejores conceptos, podemos lograr mayor precisión y mejorar la rendición de cuentas en los modelos de IA opacos,” afirma Antonio De Santis, autor principal y estudiante graduado en la Universidad Politécnica de Milán.

Construyendo cuellos de botella más efectivos

Los modelos de cuellos de botella conceptuales (CBMs) son ampliamente utilizados para mejorar la explicabilidad en IA. Estos métodos añaden un paso intermedio que obliga a un modelo de visión por computadora a predecir los conceptos presentes en una imagen antes de realizar una predicción final.

No obstante, dado que estos conceptos son frecuentemente generados por humanos o grandes modelos lingüísticos (LLMs), pueden no ajustarse adecuadamente a tareas específicas. Además, incluso cuando se proporcionan conjuntos predefinidos, el modelo puede utilizar información no deseada aprendida durante su entrenamiento, lo cual se conoce como filtración de información.

“Estos modelos están entrenados para maximizar su rendimiento, lo que significa que podrían estar utilizando conceptos desconocidos para nosotros,” explica De Santis.

Nuevas estrategias para extraer conceptos

Los investigadores del MIT propusieron un enfoque diferente: dado que el modelo ha sido entrenado con grandes volúmenes de datos, puede haber aprendido los conceptos necesarios para generar predicciones precisas para tareas específicas. Su objetivo fue construir un CBM extrayendo este conocimiento existente y transformándolo en texto comprensible para humanos.

En la primera fase del método, un modelo especializado llamado autoencoder disperso selecciona las características más relevantes aprendidas por el modelo y las reconstruye en un conjunto reducido de conceptos. Posteriormente, un LLM multimodal describe cada concepto en lenguaje sencillo.

Este LLM también anota imágenes dentro del conjunto de datos identificando qué conceptos están presentes o ausentes en cada imagen. Los investigadores utilizan este conjunto anotado para entrenar un módulo de cuello de botella conceptual capaz de reconocer dichos conceptos.

Afrontando desafíos en la interpretación

A medida que desarrollaban este método, enfrentaron múltiples desafíos, desde asegurar que el LLM anotara correctamente los conceptos hasta verificar si el autoencoder había identificado conceptos comprensibles para humanos.

Para evitar que el modelo utilizara conceptos desconocidos o no deseados, limitaron su uso a cinco conceptos por cada predicción. Esto también obliga al modelo a elegir los conceptos más relevantes, haciendo las explicaciones más claras y accesibles.

Al comparar su enfoque con CBMs avanzados en tareas como la identificación de especies aviares y lesiones cutáneas en imágenes médicas, lograron obtener la mayor precisión mientras ofrecían explicaciones más precisas.

Perspectivas futuras en inteligencia artificial interpretativa

Aunque han demostrado que extraer conceptos del modelo original puede superar otros CBMs existentes, De Santis señala que aún existe una compensación entre interpretabilidad y precisión que debe abordarse: “Los modelos opacos aún superan al nuestro.”

De cara al futuro, los investigadores planean explorar soluciones potenciales al problema del filtrado informático mediante la adición de módulos adicionales para prevenir fugas indeseadas. También contemplan escalar su método utilizando un LLM multimodal más grande para anotar conjuntos formativos más extensos, lo cual podría mejorar aún más el rendimiento.

Andreas Hotho, profesor y jefe del Departamento de Ciencia de Datos en la Universidad de Wurzburgo, quien no participó en esta investigación, expresó: “Estoy emocionado por este trabajo porque impulsa la IA interpretable hacia una dirección prometedora y crea un puente natural hacia la IA simbólica y gráficos del conocimiento.”

TEMAS RELACIONADOS:


Noticias relacionadas