Salud

Investigadores del MIT advierten sobre los riesgos de las métricas de aprendizaje automático agregadas

Investigación MIT

Álvaro Gómez Tornero | Miércoles 21 de enero de 2026

Investigadores del MIT advierten sobre el riesgo de correlaciones erróneas en modelos de aprendizaje automático. Proponen un nuevo método, OODSelect, para mejorar la precisión en diferentes contextos y evitar decisiones sesgadas.



Investigadores del MIT han puesto de manifiesto fallos significativos en modelos de aprendizaje automático cuando se aplican a datos distintos a aquellos con los que fueron entrenados. Esta situación plantea interrogantes sobre la necesidad de realizar pruebas cada vez que un modelo se despliega en un nuevo entorno.

“Demostramos que incluso cuando se entrenan modelos con grandes volúmenes de datos y se elige el mejor modelo promedio, en un nuevo contexto, este ‘mejor modelo’ podría ser el peor para entre el 6 y el 75 por ciento de los nuevos datos”, afirma Marzyeh Ghassemi, profesora asociada del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT y principal investigadora en el Laboratorio de Sistemas de Información y Decisión.

En un artículo presentado en la conferencia Neural Information Processing Systems (NeurIPS 2025), los investigadores advierten que los modelos diseñados para diagnosticar enfermedades mediante radiografías de tórax en un hospital pueden considerarse efectivos en otro hospital, pero las evaluaciones de rendimiento revelan que algunos de los modelos más destacados en el primer hospital son los peores en hasta el 75 por ciento de los pacientes del segundo hospital. Esto ocurre a pesar de que, al agregar todos los pacientes del segundo hospital, un alto rendimiento promedio oculta este fallo.

Correlaciones espurias y su impacto en la confianza del modelo

Los hallazgos subrayan que las correlaciones espurias —un ejemplo simple es cuando un sistema de aprendizaje automático clasifica erróneamente una foto de una vaca en la playa como una orca debido al fondo— no se mitigan simplemente mejorando el rendimiento del modelo sobre datos observados; estas correlaciones siguen presentes y representan un riesgo para la confiabilidad del modelo en nuevos entornos. En muchos casos, como los analizados por los investigadores, incluyendo radiografías de tórax, imágenes histopatológicas de cáncer y detección de discurso de odio, tales correlaciones espurias son mucho más difíciles de detectar.

Un caso concreto es el modelo diagnóstico médico entrenado con radiografías, donde puede haber aprendido a correlacionar una marca específica e irrelevante en las radiografías con cierta patología. En otro hospital donde esa marca no se utiliza, dicha patología podría pasarse por alto.

Investigaciones previas realizadas por el grupo de Ghassemi han demostrado que los modelos pueden correlacionar erróneamente factores como edad, género y raza con hallazgos médicos. Por ejemplo, si un modelo ha sido entrenado principalmente con radiografías de personas mayores con neumonía y no ha “visto” tantas radiografías pertenecientes a personas jóvenes, podría predecir incorrectamente que solo los pacientes mayores tienen neumonía.

Nuevas metodologías para mejorar la precisión

“Queremos que los modelos aprendan a observar las características anatómicas del paciente y tomen decisiones basadas en eso”, explica Olawale Salaudeen, postdoctorado del MIT y autor principal del artículo. “Sin embargo, cualquier cosa presente en los datos que esté correlacionada con una decisión puede ser utilizada por el modelo. Y esas correlaciones podrían no ser robustas ante cambios en el entorno, lo que hace que las predicciones del modelo sean fuentes poco fiables para la toma de decisiones”.

Las correlaciones espurias contribuyen a aumentar los riesgos asociados con decisiones sesgadas. En su trabajo presentado en NeurIPS, los investigadores demostraron que ciertos modelos para radiografías mejoraron su rendimiento general pero resultaron menos efectivos para pacientes con condiciones pleurales o cardiomegalia.

Aparte de Ghassemi, otros autores del estudio incluyen a estudiantes doctorales como Haoran Zhang y Kumail Alhamoud, así como a la profesora asistente Sara Beery.

La importancia del algoritmo OODSelect

A diferencia de investigaciones anteriores que asumían que los modelos ordenados según su rendimiento mantendrían ese orden al aplicarse en nuevos entornos —lo que se denomina precisión sobre la línea— este equipo demostró ejemplos donde los mejores modelos en un contexto resultaron ser los peores en otro. Salaudeen desarrolló un algoritmo llamado OODSelect, diseñado para identificar casos donde esta precisión se ve comprometida.

Básicamente, entrenó miles de modelos usando datos in-distribution (es decir, provenientes del primer entorno) y calculó su precisión. Luego aplicó esos modelos a datos provenientes del segundo entorno. Cuando aquellos con mayor precisión sobre datos del primer entorno fallaban al aplicarse a un gran porcentaje de ejemplos del segundo entorno, esto identificaba subconjuntos problemáticos o sub-poblaciones específicas.

A través de su investigación, separaron ejemplos “más mal calculados” para evitar confundir las correlaciones espurias dentro de un conjunto de datos con situaciones simplemente difíciles de clasificar. El artículo también libera código y algunos subconjuntos identificados para trabajos futuros.

Mejorando modelos mediante identificación precisa

Cualquier hospital u organización que emplee aprendizaje automático puede utilizar esta información sobre subconjuntos donde un modelo está funcionando mal para mejorar dicho modelo según sus tareas específicas y contextos. Los investigadores recomiendan adoptar OODSelect en futuros trabajos para resaltar objetivos para evaluación y diseñar enfoques destinados a mejorar consistentemente el rendimiento.

"Esperamos que el código liberado y los subconjuntos OODSelect se conviertan en un peldaño", concluyen los investigadores, "hacia benchmarks y modelos que enfrenten los efectos adversos de las correlaciones espurias".

TEMAS RELACIONADOS:


Noticias relacionadas