Qué es el 'red teaming' híbrido, el proceso que permite a OpenAI detectar fallos en ChatGPT

OpenAI enfrenta desafíos de seguridad en sus modelos de IA como ChatGPT y adopta red teaming para identificar riesgos, mejorando así la seguridad y ajustando comportamientos potencialmente dañinos. Resumen del artículo publicado en technologyreview.es y recomendado por Digital Skills Institute el 16 de mayo de 2025.

La inteligencia artificial y, en particular, los grandes modelos de lenguaje como ChatGPT, presentan retos importantes en términos de seguridad y comportamiento. OpenAI, la entidad responsable de ChatGPT, debe enfrentar el desafío de controlar situaciones donde los modelos puedan generar respuestas no deseadas, incluyendo contenido ofensivo o la difusión de información sensible. Este escenario obliga a la organización a implementar estrategias efectivas para mitigar riesgos.

Para abordar estas preocupaciones, OpenAI ha incorporado un método conocido como "red teaming", que implica simular ataques para detectar vulnerabilidades en sus sistemas. Esta técnica, originada en la ciberseguridad, permite evaluar el comportamiento de los modelos antes de su despliegue público. Desde 2022, cuando se desarrolló DALL-E 2, este enfoque se ha vuelto fundamental en el proceso de lanzamiento de nuevos productos, ayudando a establecer estándares más altos en el sector de la inteligencia artificial.

Además, OpenAI colabora con testers externos de diversos campos para identificar errores en los modelos. Estas colaboraciones aportan perspectivas variadas al proceso, mientras que un sistema automatizado, basado en aprendizaje por refuerzo, ayuda a detectar comportamientos dañinos. Tal enfoque permite que los modelos se ajusten continuamente para evitar respuestas inadecuadas. Por ejemplo, durante el desarrollo de DALL-E 3, se creó un sistema para anticipar solicitudes problemáticas, lo que destaca el compromiso de OpenAI con la seguridad.

Sin embargo, la compañía reconoce que ningún sistema puede prever todos los escenarios de uso, lo que subraya la importancia de promover el red teaming como una práctica recomendada para otros desarrolladores. Expertos en el campo abogan por la colaboración y la transparencia como mecanismos esenciales para avanzar en el desarrollo seguro de la inteligencia artificial, asegurando la preparación para un futuro en constante evolución. A medida que el uso de estos modelos se diversifica, la mejora continua en las estrategias de seguridad se vuelve crucial.

Leer en technologyreview.es

¡Participa en la conversación!