Inteligencia Artificial

Microsoft crea un equipo que 'hackea' su propia IA para garantizar su seguridad antes del lanzamiento

jenriqueiymagazinees/8/8/19

lunes 23 de marzo de 2026, 12:16h

Un equipo diverso en Microsoft, conocido como "equipo rojo", evalúa y mejora la inteligencia artificial antes de su lanzamiento, asegurando su seguridad y ética mediante pruebas rigurosas y principios claros.

Brad Smith, presidente de Microsoft, reflexiona sobre la importancia de establecer "guardarraíles" en el desarrollo de la inteligencia artificial (IA). Durante unas jornadas sobre innovación en la sede de Redmond, se planteó la cuestión de cómo y quién decide si la tecnología puede ser utilizada en contextos críticos como el bélico. Recientemente, la empresa de IA Anthropic demandó al Pentágono tras ser vetada para contratos de defensa, lo que ha reavivado un debate crucial en el sector tecnológico. En 2021, el Pentágono había cancelado un contrato por valor de 10.000 millones de dólares con Microsoft debido a las protestas internas.

Smith subraya que Microsoft tiene principios claros que guían su uso de la tecnología: “No se trata solo de cuándo debemos usarla, sino también de cuándo no debemos hacerlo”. Para garantizar esto, la compañía cuenta con un equipo especializado conocido como “equipo rojo” o red team, creado en 2018. Este grupo simula ataques para identificar vulnerabilidades antes del lanzamiento de nuevos productos. Según Ram Shankar Siva Kumar, líder del equipo, su labor es fundamental para asegurar que los sistemas sean robustos y seguros.

El papel del equipo rojo en Microsoft

El equipo rojo ha evaluado más de 100 productos hasta la fecha, aunque Microsoft no revela detalles sobre su tamaño ni sobre posibles productos detenidos. Sin embargo, Kumar asegura que tienen autoridad para frenar cualquier sistema de IA considerado de alto riesgo: “Ningún sistema se implementa sin una prueba independiente previa”. La pregunta central que se hacen al evaluar un producto es: “¿Cómo podría usarse este sistema, para bien o para mal, dentro de meses o años?”.

Los seis principios que guían su trabajo son: equidad, responsabilidad, transparencia, confiabilidad y seguridad, inclusión y privacidad. Estos conceptos se traducen en herramientas prácticas; por ejemplo, han desarrollado una herramienta llamada Pyrit, diseñada inicialmente para uso interno y luego compartida con el público.

Un equipo diverso y multidisciplinario

El equipo está compuesto por neurocientíficos, lingüistas y expertos en ciberseguridad, entre otros perfiles diversos. Además, cuentan con miembros que hablan 17 idiomas diferentes. Kumar destaca que uno de sus objetivos es evitar errores en cualquier parte del mundo. Junto a él trabaja Tori Westerhoff, quien combina su formación en neurociencia cognitiva y estrategia de seguridad nacional.

Westerhoff explica que su enfoque consiste en emular posibles fallos extremos en el uso de tecnologías antes de su lanzamiento. Un ejemplo reciente fue el análisis del modelo GPT-5. Utilizaron Pyrit para generar millones de conversaciones trampa donde una IA intentaba engañar a otra durante días.

La importancia del juicio humano frente a la automatización

A pesar del avance tecnológico, tanto Kumar como Westerhoff insisten en que hay límites a lo que puede automatizarse. Solo los humanos pueden discernir si una respuesta generada por IA es inapropiada o sesgada. Esta división entre lo automático y lo humano es clave para el funcionamiento del equipo. Westerhoff sostiene que solo las personas pueden imaginar escenarios aún no explorados completamente.

El equipo identifica tres áreas donde el juicio humano es esencial: evaluación del riesgo en campos sensibles como medicina o seguridad; consideración de diferencias lingüísticas y culturales; e inteligencia emocional en interacciones humanas con sistemas AI. A pesar de pasar todas las pruebas automatizadas, un modelo puede producir respuestas perturbadoras según el contexto.

Una visión ética sobre la inteligencia artificial

Esta perspectiva coincide con la opinión de Mustafa Suleyman, cofundador de Deepmind y actual CEO de Microsoft AI. Recientemente afirmó que “una IA aparentemente consciente puede convertirse en un arma”, resaltando la necesidad urgente de establecer normas éticas claras para evitar confusiones entre máquinas y seres sintientes.

En resumen, Kumar concluye que “la IA responsable no es un filtro aplicado al final del desarrollo; debe ser parte integral del proceso desde el inicio”. Así se materializan los guardarraíles mencionados por Smith: condiciones esenciales para avanzar rápidamente sin caer en riesgos incontrolables.

Microsoft