OpenAI enfrenta desafíos de seguridad en sus modelos de IA como ChatGPT y adopta red teaming para identificar riesgos, mejorando así la seguridad y ajustando comportamientos potencialmente dañinos. Artículo publicado en technologyreview.es y recomendado por Digital Skills Institute el 16 de mayo de 2025.
El uso de la inteligencia artificial, especialmente de los grandes modelos de lenguaje como ChatGPT, plantea desafíos significativos en términos de seguridad y comportamiento de los sistemas. OpenAI, la organización detrás de ChatGPT, se enfrenta al reto de controlar las amplias y diversas situaciones en que estos modelos pueden presentar comportamientos no deseados, tales como la generación de contenido ofensivo, la divulgación de información privada, o el refuerzo de estereotipos y prejuicios.
Para abordar estas cuestiones, OpenAI ha adoptado un enfoque llamado "red teaming", que consiste en simular ataques para identificar vulnerabilidades en los sistemas. Esta técnica, originaria del ámbito de la ciberseguridad, permite a la compañía examinar el comportamiento de sus modelos antes de su lanzamiento al público. En 2022, OpenAI comenzó a utilizar el red teaming durante el desarrollo de DALL-E 2, marcando la primera vez que lanzaban un producto que era accesible al gran público. Este método se ha convertido en un componente esencial para garantizar la seguridad y la eficacia de sus modelos de inteligencia artificial, contribuyendo también a establecer estándares en la industria.
El proceso de red teaming se complementa con el uso de una red de testers externos, que colaboran con OpenAI para detectar errores y comportamientos no deseados en los modelos. Estos testers provienen de diversos campos profesionales, lo que aporta una gama amplia de perspectivas y enfoques al proceso. Además, OpenAI ha desarrollado un sistema automatizado que utiliza el aprendizaje por refuerzo para identificar y corregir comportamientos potencialmente dañinos o riesgosos en los modelos, permitiendo así un análisis exhaustivo y multifacético.
Entre los esfuerzos de OpenAI, destaca la implementación de medidas de seguridad cada vez más sofisticadas. Por ejemplo, durante el desarrollo de DALL-E 3, se introdujo un sistema para anticipar y rechazar solicitudes problemáticas, tales como aquellas que pretendan desinformar o incluyan contenido indebido. Utilizar un modelo lingüístico avanzado como GPT-4 en estos procesos ha permitido a OpenAI ajustar el comportamiento de sus modelos para evitar respuesta inapropiadas o potencialmente dañinas.
Pese a estos avances, OpenAI reconoce que ningún sistema de pruebas puede prever todos los usos o escenarios posibles que los usuarios puedan inventar al interactuar con estos modelos. Por lo tanto, la compañía promueve el uso del red teaming no solo como herramienta interna, sino también como una práctica recomendada para otros usuarios y desarrolladores que empleen sus modelos.
Las iniciativas de OpenAI en este campo han abierto nuevas vías para entender y gestionar los riesgos asociados a la inteligencia artificial, ofreciendo una guía práctica sobre cómo poner a prueba y mejorar la seguridad de los modelos lingüísticos. Sin embargo, continúan existiendo desafíos, especialmente cuando estos modelos se utilizan en entornos o contextos no previamente considerados, o se conectan a fuentes de datos distintas.
Para enfrentar estos retos, expertos como Nazneen Rajani, CEO de Collinear AI, enfatizan la necesidad de que los usuarios tengan acceso a herramientas y métodos para evaluar y asegurar la implementación de modelos de terceros de manera segura. La colaboración entre desarrolladores y usuarios, así como la transparencia en los procesos de pruebas y seguridad, se perfilan como elementos fundamentales para avanzar en el desarrollo ético y seguro de la inteligencia artificial.
La visión a futuro para OpenAI y otros desarrolladores en este ámbito gira en torno a la continua mejora de sus métodos de seguridad, integrando tanto estrategias automáticas como colaborativas, y adaptándose a la evolución del uso y comprensión de los grandes modelos lingüísticos por parte de un público cada vez más diverso y extenso.