Universidades Europeas

Investigación revela que filtrar datos protege modelos de IA de tareas peligrosas

Investigación Oxford

Redacción | Jueves 14 de agosto de 2025

Investigadores de la Universidad de Oxford han desarrollado un método para filtrar datos en modelos de IA, evitando que realicen tareas peligrosas y mejorando la seguridad en áreas sensibles como la biotecnología.



Un equipo de investigadores de la Universidad de Oxford, EleutherAI y el Instituto de Seguridad AI del Reino Unido ha logrado un avance significativo en la protección de los modelos de lenguaje de peso abierto. Al filtrar información potencialmente dañina durante el proceso de entrenamiento, han desarrollado modelos que resisten actualizaciones maliciosas posteriores, un aspecto especialmente valioso en áreas sensibles como la investigación sobre amenazas biológicas.

Yarin Gal, profesor asociado de aprendizaje automático en el Departamento de Ciencias de la Computación de Oxford y autor principal del estudio, destacó: “La comunidad investigadora ha progresado enormemente en las salvaguardias de IA en los últimos años, pero uno de los retos más grandes sigue siendo la protección de los modelos de peso abierto. ¿Cómo podemos construir modelos que podamos distribuir sin aumentar el riesgo de uso indebido? Nuestro estudio representa un avance significativo en esta dirección”.

Innovación en seguridad desde el inicio

Este enfoque marca un cambio radical en la estrategia hacia la seguridad en inteligencia artificial: en lugar de añadir salvaguardias después del hecho, se integran desde el principio. Esta metodología reduce riesgos sin sacrificar la apertura, permitiendo así la transparencia y la investigación sin comprometer la seguridad.

Los modelos de peso abierto son fundamentales para una investigación colaborativa y transparente en IA. Su disponibilidad fomenta una evaluación crítica, mitiga la concentración del mercado y acelera el progreso científico. Con lanzamientos recientes como Kimi-K2, GLM-4.5 y gpt-oss, estos modelos están aumentando constantemente su capacidad e influencia, alcanzando niveles que, según informes, están a solo 6-12 meses detrás de los mejores modelos cerrados.

Riesgos asociados a la apertura

No obstante, esta apertura conlleva riesgos significativos. Así como los modelos abiertos pueden ser perfeccionados para aplicaciones positivas, también pueden ser modificados para fines perjudiciales. Modelos textuales alterados sin salvaguardias ya son comunes, mientras que generadores de imágenes abiertos se han convertido en herramientas para producir contenido ilegal. Dado que estos modelos pueden ser descargados, modificados y redistribuidos por cualquier persona, es crucial desarrollar protecciones robustas contra manipulaciones.

A diferencia del enfoque tradicional que consiste en entrenar un modelo general y luego añadir filtros, este estudio implementa salvaguardias durante todo el proceso de entrenamiento al filtrar conocimientos no deseados desde los datos iniciales. El equipo centró su atención en un entorno relacionado con amenazas biológicas y eliminó contenido relacionado con biología del conjunto de datos utilizado para entrenar al modelo, buscando negar completamente este conocimiento al modelo.

Eficacia comprobada del nuevo método

El modelo filtrado demostró ser capaz de resistir el entrenamiento basado en hasta 25,000 documentos sobre temas relacionados con amenazas biológicas (como virología y armas biológicas), mostrando una efectividad más de diez veces superior a métodos previos considerados como estado del arte. A diferencia de estrategias tradicionales que limitan el acceso o ajustan finamente los modelos —que pueden ser fácilmente evadidas—, filtrar los datos previos al entrenamiento demostró ser resistente incluso bajo ataques adversariales sostenidos.

Stephen Casper, coautor del estudio y miembro del Instituto de Seguridad AI del Reino Unido, afirmó: “Al eliminar el conocimiento no deseado desde el principio, el modelo resultante no tenía base para adquirir capacidades peligrosas, incluso después de intentos adicionales de entrenamiento. Nuestro estudio demuestra que la filtración de datos puede ser una herramienta poderosa para ayudar a los desarrolladores a equilibrar seguridad e innovación en IA open-source.”

Paso adelante hacia una gobernanza global eficaz en IA

Los hallazgos llegan en un momento crítico para la gobernanza global sobre inteligencia artificial. Informes recientes sobre seguridad AI provenientes de OpenAI, Anthropic y DeepMind han advertido que los modelos avanzados podrían pronto asistir en la creación de amenazas biológicas o químicas. Muchos gobiernos han expresado su preocupación por la falta de salvaguardias para los modelos disponibles abiertamente, que no pueden ser retirados una vez liberados.

This research was conducted by the University of Oxford, EleutherAI and the UK AI Security Institute.

The study ‘Deep Ignorance: Filtering pretraining data builds tamper-resistant safeguards into open-weight LLMs’ has been published as a preprint on arXiv.

TEMAS RELACIONADOS:


Noticias relacionadas