La inteligencia artificial está marcando un hito en el ámbito de la salud infantil gracias a la labor de investigadores de la UNED. Un equipo del Departamento de Lenguajes y Sistemas Informáticos de la Escuela Técnica Superior de Ingeniería Informática ha desarrollado un innovador sistema de análisis de lenguaje natural que permite identificar y clasificar hasta 19 enfermedades raras en informes clínicos redactados en español. Este trabajo, titulado “Un enfoque integrado para la detección y clasificación de enfermedades raras en informes médicos pediátricos españoles”, ha sido publicado recientemente en la revista Scientific Reports.
Entre los autores se encuentran destacados profesores como Juan Martínez-Romo, Lourdes Araujo, y Andrés Duque, junto con otros especialistas como María D. Esteban-Vasallo, María-Felicitas Domínguez-Berjón y David Malillos Pérez. Este grupo enfrenta uno de los mayores retos del procesamiento automatizado de información biomédica: reconocer menciones a patologías poco comunes en registros médicos reales, que suelen estar redactados sin una estandarización clara y presentan la complejidad del lenguaje clínico.
Avances en Diagnóstico Precoz Infantil
La investigación se basa en una amplia cohorte de datos anónimos extraídos de historias clínicas pediátricas de atención primaria en la Comunidad de Madrid. Con casi 250.000 notas médicas, el equipo ha diseñado un sistema híbrido que combina técnicas lingüísticas avanzadas con modelos basados en arquitecturas Transformer. Estas redes neuronales han revolucionado el campo del procesamiento del lenguaje natural al permitir un análisis más preciso y eficiente de grandes volúmenes de texto, identificando patrones complejos y comprendiendo mejor el contexto semántico.
El proceso automatiza una primera fase crucial: mediante inteligencia artificial, se seleccionan posibles menciones a enfermedades raras —que abarcan desde síndromes genéticos hasta trastornos metabólicos poco comunes— para que luego sean validadas por expertos clínicos. Esta colaboración ha dado lugar a un archivo compuesto por 1.900 textos clínicos anotados, convirtiéndose en uno de los recursos más significativos hasta ahora para investigar estas patologías en español.
Eficiencia y Precisión en Modelos Inteligentes
Los resultados obtenidos demuestran que este enfoque es altamente efectivo. Los modelos más avanzados lograron identificar correctamente más del 78 % de los casos, lo cual representa una mejora significativa respecto a sistemas anteriores, superando los diez puntos porcentuales. Este avance es especialmente relevante dado que las enfermedades raras suelen contar con datos limitados disponibles.
La alta precisión del sistema también se atribuye a su cuidadosa adaptación al español clínico, considerando aspectos como el manejo de negaciones, la diferenciación entre enfermedades actuales y antecedentes familiares, así como la identificación de referencias indirectas. Estos elementos son fundamentales para evitar confusiones entre diagnósticos definitivos y meras sospechas o información heredada.
Impulsando Registros Médicos Más Eficaces
Este proyecto se alinea con iniciativas como el Registro Regional de Enfermedades Raras (SIERMA), impulsado por la Dirección General de Salud Pública de la Comunidad de Madrid, cuyo objetivo es mejorar la identificación y seguimiento de casos desde la atención primaria.
Los investigadores sostienen que herramientas como esta abren nuevas posibilidades para integrar la inteligencia artificial en procesos clínicos rutinarios. Esto no solo facilitaría una detección precoz más efectiva en pacientes pediátricos, sino que también fortalecería los sistemas de vigilancia epidemiológica. A medio plazo, esta tecnología podría asistir a los profesionales sanitarios en el análisis automatizado de miles de notas clínicas que actualmente requieren revisión manual.