Investigadores del MIT revelan que pequeñas variaciones en datos de retroalimentación pueden alterar drásticamente los rankings de modelos de lenguaje, lo que advierte sobre la fiabilidad de estas plataformas para decisiones empresariales.
Las empresas que buscan implementar un modelo de lenguaje grande (LLM) para tareas como la síntesis de informes de ventas o la gestión de consultas de clientes se enfrentan a una amplia variedad de opciones. Con cientos de LLM únicos y múltiples variaciones, cada uno presenta un rendimiento ligeramente diferente.
Para facilitar esta elección, muchas organizaciones recurren a plataformas de clasificación de LLM, que recopilan opiniones de usuarios sobre las interacciones con los modelos para establecer un ranking basado en su desempeño en tareas específicas.
No obstante, un estudio realizado por investigadores del MIT ha revelado que unas pocas interacciones de usuario pueden distorsionar significativamente los resultados, llevando a la confusión sobre cuál LLM es realmente el más adecuado para un caso particular. La investigación indica que eliminar incluso una pequeña fracción de datos crowdsourced puede alterar qué modelos aparecen en las posiciones más altas del ranking.
Los investigadores desarrollaron un método ágil para evaluar estas plataformas y determinar su susceptibilidad a este tipo de problemas. Esta técnica permite identificar los votos individuales que más influyen en los resultados, lo que facilita a los usuarios revisar esas votaciones clave.
Según los autores del estudio, esto pone de manifiesto la necesidad de estrategias más rigurosas para evaluar los rankings de modelos. Aunque no se centraron en la mitigación durante esta investigación, sugieren que mejorar la calidad del feedback recopilado podría fortalecer la validez de estas clasificaciones.
El estudio también advierte a los usuarios sobre el riesgo de confiar ciegamente en estos rankings al tomar decisiones que podrían tener repercusiones significativas y costosas para sus negocios u organizaciones.
“Nos sorprendió descubrir cuán sensibles son estas plataformas a este problema. Si el LLM mejor clasificado depende únicamente de dos o tres opiniones entre decenas de miles, no se puede asumir que ese modelo superará consistentemente a otros cuando se implemente”, señala Tamara Broderick, profesora asociada en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT.
Acompañan a Broderick en el trabajo académico los estudiantes graduados Jenny Huang y Yunyi Shen, así como Dennis Wei, científico investigador senior en IBM Research. Este estudio será presentado en la Conferencia Internacional sobre Representaciones Aprendidas.
Análisis del impacto del dato eliminado
A pesar de existir diversas plataformas para clasificar LLM, las más comunes solicitan a los usuarios que comparen dos modelos y seleccionen cuál ofrece una mejor respuesta. Los resultados se agregan para producir rankings que indican qué LLM destaca en tareas específicas como programación o comprensión visual.
Elegir un LLM bien posicionado lleva implícita la expectativa de que dicho modelo mantendrá su rendimiento superior al aplicarlo a nuevos conjuntos de datos similares pero no idénticos. Investigaciones anteriores del MIT han demostrado cómo eliminar un pequeño porcentaje de datos puede afectar drásticamente los resultados, sugiriendo que las conclusiones obtenidas podrían no ser válidas fuera del contexto específico analizado.
Los investigadores querían aplicar este análisis a las plataformas clasificatorias. “Al final del día, el usuario desea saber si está seleccionando el mejor LLM. Si solo unos pocos prompts determinan esta clasificación, eso sugiere que podría no ser definitiva”, afirma Broderick.