Universidad

Estudio de la URJC y King's College revela la fiabilidad de la IA en consultas médicas

IA Médica

José Enrique González | Viernes 19 de junio de 2026

Un estudio conjunto de la URJC y otras universidades evalúa la fiabilidad de modelos de IA como ChatGPT en consultas médicas, destacando su utilidad pero subrayando la necesidad de supervisión profesional.



Un reciente estudio llevado a cabo por la Universidad Rey Juan Carlos (URJC), en colaboración con el King’s College London y Solent University London, junto al Hospital de Henares, ha analizado la capacidad de modelos de lenguaje como ChatGPT y Gemini para responder a preguntas sobre temas médicos, específicamente sobre la epidural. Los hallazgos indican que, aunque la inteligencia artificial (IA) puede ser una herramienta útil para obtener información adicional, su fiabilidad varía y siempre debe ser contrastada con un profesional sanitario.

Claves de la noticia

Estudio sobre IA en medicina

Investigadores evalúan respuestas de IA a preguntas médicas.

ChatGPT destaca en precisión

ChatGPT muestra el mejor rendimiento entre los modelos analizados.

Influencia del idioma en respuestas

Las respuestas varían según el idioma utilizado por los pacientes.

En el contexto actual, donde los pacientes recurren frecuentemente a las redes sociales y herramientas digitales para resolver sus dudas médicas, se ha observado que muchos muestran desconfianza hacia procedimientos como la epidural. Este estudio se centra en evaluar la fiabilidad de las respuestas proporcionadas por diferentes modelos de lenguaje ante estas inquietudes.

Los resultados publicados en Artificial Intelligence in Medicine revelan que ChatGPT es el modelo que ofrece mejores resultados generales, seguido por Gemini. Sin embargo, la calidad de las respuestas depende del tipo de pregunta formulada. Marina del Barrio, investigadora principal del estudio, señala que aunque ChatGPT obtiene buenos datos, otros modelos más pequeños como OpenChat y Phi-3 logran resultados comparables gracias a su entrenamiento específico.

Calidad variable en respuestas complejas

El equipo investigador también se dedicó a diferenciar entre las respuestas útiles y aquellas que podrían confundir a los pacientes. La complejidad de las preguntas afecta directamente la calidad de las respuestas; aquellas que son más delicadas o controvertidas tienden a resultar menos precisas. Para llevar a cabo esta evaluación, se formularon diez preguntas relacionadas con la epidural, cada una planteada de diversas maneras para comprobar cómo respondían los modelos.

A través de este proceso, se seleccionaron varios modelos para su análisis: además de ChatGPT y Gemini, se incluyeron OpenChat y versiones Phi-2 y Phi-3, así como modelos médicos especializados como MedLlama y Meditron. Las métricas utilizadas para evaluar las respuestas abarcaron aspectos como tangibilidad, fiabilidad y empatía. En total, más de 2.400 respuestas fueron revisadas manualmente por expertos para determinar cuáles eran aceptables.

Nuevas oportunidades para la IA médica

Los hallazgos del estudio sugieren un camino prometedor hacia el desarrollo de sistemas de inteligencia artificial más eficientes en el ámbito médico. Estos avances no solo podrían servir como apoyo tanto para profesionales como para pacientes, sino que también subrayan que el tamaño del modelo no siempre es indicativo de su eficacia; lo que realmente importa son los datos utilizados durante su entrenamiento.

Además, se examinó cómo el idioma influye en las capacidades de respuesta de estos modelos. Los resultados mostraron variaciones significativas basadas en el idioma utilizado; curiosamente, ChatGPT mejoró su desempeño al responder en español. En conclusión, los mejores modelos identificados fueron ChatGPT y Gemini tanto en inglés como en español.

Preguntas sobre la noticia

¿Es confiable la información médica proporcionada por modelos de IA como ChatGPT y Gemini?

La investigación indica que el uso de IA para ampliar información puede ser útil, pero su fiabilidad es variable. Siempre se recomienda contrastar la información obtenida con un profesional sanitario.

¿Qué factores afectan la calidad de las respuestas de los modelos de IA en consultas médicas?

La calidad de las respuestas depende de la complejidad de las preguntas y del entrenamiento del modelo. Las preguntas más complejas o controvertidas tienden a obtener peores resultados.

¿Cómo influye el idioma en las respuestas de los modelos de IA?

Los resultados muestran que el lenguaje influye en la calidad de las respuestas. Por ejemplo, ChatGPT mejora su actuación en español, lo que destaca la importancia del idioma en la comprensión y respuesta a las consultas.

TEMAS RELACIONADOS:


Noticias relacionadas