Investigadores proponen WRING, una técnica innovadora para reducir sesgos en modelos de visión por computadora, evitando la amplificación de nuevos sesgos que ocurre con métodos tradicionales.
En el ámbito de la salud, los modelos de inteligencia artificial (IA) se han convertido en herramientas esenciales para dermatólogos al clasificar lesiones cutáneas y determinar su riesgo de cáncer. Sin embargo, si estos modelos presentan sesgos hacia ciertos tonos de piel, pueden fallar en identificar a pacientes que realmente están en riesgo.
El sesgo en la IA es un desafío persistente que afecta tanto a los datos de entrenamiento como a la arquitectura del modelo, lo que puede influir negativamente en su rendimiento en situaciones reales. En contextos médicos críticos, las consecuencias de un mal funcionamiento son graves, convirtiendo el sesgo en un tema crucial de seguridad.
Investigadores del MIT, el Worcester Polytechnic Institute y Google han presentado una innovadora técnica de des-biasing llamada “Weighted Rotational DebiasING” (WRING), aceptada para su presentación en la 2026 International Conference for Learning Representations. Esta metodología se aplica a los modelos de lenguaje visual (VLMs), como OpenAI’s OpenCLIP.
Los VLMs son modelos multimodales capaces de comprender e interpretar simultáneamente diferentes tipos de datos, como videos, imágenes y texto. Aunque existen enfoques para eliminar sesgos en estos modelos, el más común es el conocido como “proyección des-biasing”, que ha dado lugar al denominado “Whac-A-Mole dilemma”.
La proyección des-biasing es un método post-procesamiento que elimina información sesgada al “proyectar” subespacios fuera del espacio representacional. Sin embargo, este enfoque tiene limitaciones significativas. Según Walter Gerych, primer autor del estudio y actual profesor asistente en Worcester Polytechnic Institute, “cuando haces eso, inadvertidamente comprimes todo lo demás”. Esto significa que las relaciones aprendidas por el modelo también se ven alteradas.
A pesar de que este método evita que el modelo actúe sobre el sesgo proyectado fuera del subespacio, puede amplificar otros sesgos no deseados. Según Marzyeh Ghassemi, profesora asociada en MIT, esta amplificación no intencionada plantea tanto un desafío técnico como práctico: “Por ejemplo, al eliminar un sesgo racial en un VLM que recupera imágenes del personal clínico, podríamos amplificar sin querer un sesgo de género”.
WRING aborda este problema moviendo ciertas coordenadas dentro del espacio multidimensional del modelo —específicamente aquellas responsables del sesgo— a un ángulo diferente. De esta forma, el modelo ya no puede distinguir entre distintos grupos dentro de un concepto específico sin alterar otras relaciones aprendidas. Al igual que la proyección des-biasing, WRING es un enfoque post-procesamiento y puede aplicarse "sobre la marcha" a un VLM preentrenado.
Gerych destaca la eficiencia de WRING: “Las personas ya han invertido muchos recursos y dinero entrenando estos grandes modelos; no queremos modificar algo durante el entrenamiento porque tendríamos que empezar desde cero”. Los resultados preliminares indican que WRING reduce significativamente el sesgo para un concepto objetivo sin aumentar el sesgo en otras áreas. Sin embargo, por ahora, esta técnica está limitada a los modelos CLIP.
"Extender esto a modelos generativos tipo ChatGPT es nuestro próximo paso razonable", concluye Gerych.
Este trabajo cuenta con el apoyo parcial de varios premios y becas prestigiosas, incluyendo el National Science Foundation CAREER Award y el AI2050 Award Early Career Fellowship.
WRING, que significa "Weighted Rotational DebiasING", es un nuevo enfoque de debiasing que evita crear o amplificar sesgos en los modelos de visión AI. A diferencia del enfoque tradicional de debiasing por proyección, WRING ajusta ciertas coordenadas en el espacio del modelo para que no pueda distinguir entre diferentes grupos dentro de un concepto específico, manteniendo intactas otras relaciones del modelo.
Por el momento, WRING está limitado principalmente a los modelos CLIP (Contrastive Language-Image Pre-training), que conectan imágenes con lenguaje para tareas de búsqueda o clasificación. La extensión de esta técnica a modelos generativos de lenguaje como ChatGPT es el siguiente paso razonable para los investigadores.
El sesgo en modelos de inteligencia artificial puede tener consecuencias graves, especialmente en escenarios médicos donde una identificación incorrecta puede afectar la salud del paciente. Un modelo sesgado podría no identificar adecuadamente a pacientes en riesgo, lo que convierte al sesgo en un problema crítico de seguridad.