OpenAI creó en octubre de 2023 un equipo especializado en Preparación para rastrear, evaluar y frenar los riesgos catastróficos que pueden surgir de los modelos de inteligencia artificial más avanzados, los llamados modelos fronterizos. El equipo, liderado por Aleksander Madry, concentra su trabajo en cuatro categorías concretas: persuasión a escala, ciberseguridad, amenazas CBRN (químicas, biológicas, radiológicas y nucleares) y replicación y adaptación autónoma (ARA).
La iniciativa viene de más atrás. En julio de 2023, OpenAI se unió a otros laboratorios de IA en una serie de compromisos voluntarios de seguridad promovidos desde la Casa Blanca, que incluían la evaluación de riesgos antes del despliegue de modelos y el desarrollo de herramientas de prueba roja. Cuando llegó el UK AI Safety Summit, OpenAI presentó sus avances sobre seguridad en IA fronteriza. El equipo de Preparación es la respuesta más concreta a esos compromisos.
Qué son los modelos fronterizos y por qué preocupan
Un modelo fronterizo es aquel que supera a todos los sistemas existentes en el momento de su lanzamiento. Son los que tienen más potencial para resolver problemas de alta complejidad científica o técnica, pero también los que concentran el mayor riesgo de mal uso. El problema central no es solo que alguien los use con fines dañinos, sino que sus capacidades son difíciles de anticipar antes de que el modelo esté listo, y a veces también después.
OpenAI identifica tres preguntas que el equipo de Preparación debe responder. La primera: qué daño concreto pueden causar estos sistemas si se usan de forma malintencionada, tanto ahora como en el futuro próximo. La segunda: cómo construir un marco riguroso de monitoreo, evaluación y predicción de capacidades peligrosas. La tercera: qué podría hacer un actor hostil si lograse robar los pesos de un modelo fronterizo.
Cuatro categorías de riesgo catastrófico
El equipo trabaja sobre cuatro áreas que OpenAI considera potencialmente catastróficas si no se gestionan bien:
- Persuasión a escala: la capacidad de un modelo para generar mensajes altamente personalizados que manipulen la opinión de individuos o grupos concretos.
- Ciberseguridad: el uso de IA para diseñar ataques informáticos sofisticados o para automatizar la búsqueda y explotación de vulnerabilidades.
- Amenazas CBRN: el riesgo de que modelos avanzados ayuden a actores malintencionados a obtener o usar agentes químicos, biológicos, radiológicos o nucleares.
- ARA (replicación y adaptación autónoma): la posibilidad de que un sistema de IA sea capaz de copiarse a sí mismo, adaptarse y actuar sin supervisión humana.
Estas evaluaciones se aplicarán tanto a los modelos en desarrollo a corto plazo como a los que alcancen capacidades a nivel de inteligencia artificial general (AGI). El equipo también realizará pruebas rojas internas y colaborará con investigadores externos para identificar vectores de riesgo que no sean evidentes desde dentro.
El Desafío de Preparación en IA: 25.000 dólares en créditos de API
Junto al equipo, OpenAI lanzó el Desafío de Preparación en IA, una convocatoria abierta para identificar riesgos de mal uso catastrófico que los propios investigadores de la compañía podrían no haber detectado. Las diez mejores propuestas reciben hasta 25.000 dólares en créditos de API, y las ideas más interesantes se publicarán. Los mejores participantes también pueden ser considerados candidatos para unirse al equipo de Preparación.
La iniciativa parte de un límite real: los sistemas de evaluación interna tienen puntos ciegos. Traer perspectivas externas es una forma de detectar vectores de riesgo que no están en el radar de quienes construyen los modelos.
Contexto: regulación y compromisos voluntarios
El movimiento de OpenAI encaja en un periodo en que los gobiernos empezaron a exigir más responsabilidad a los laboratorios de IA. En Europa, el AI Act avanzaba en el proceso legislativo. En Estados Unidos, la Casa Blanca preparaba la orden ejecutiva sobre IA que publicó en octubre de 2023. El equipo de Preparación de OpenAI llegó en ese contexto, pero su diseño apunta a algo más permanente que el cumplimiento regulatorio: crear una capacidad interna de evaluación que crezca con los propios modelos.
Para más detalle sobre el planteamiento inicial, puedes consultar el blog de OpenAI sobre riesgos fronterizos y preparación. En el debate más amplio sobre el futuro de la IA, resulta ilustrativo ver cómo figuras como Jeff Bezos abordan la paradoja entre automatización y empleo. También es relevante seguir la expansión de OpenAI en Europa con sus herramientas de código, que muestra la dirección que ha tomado la empresa desde entonces.
Preguntas frecuentes
¿Qué es un modelo fronterizo de IA?
Un modelo fronterizo es aquel que supera en capacidades a todos los sistemas de IA existentes en el momento de su lanzamiento. Son los más potentes del mercado en cada momento y los que concentran mayor riesgo de mal uso, precisamente porque sus capacidades son difíciles de anticipar y contener.
¿Qué significa ARA en el contexto de riesgos de IA?
ARA (replicación y adaptación autónoma) se refiere a la capacidad hipotética de un sistema de IA para copiarse a sí mismo, modificarse y operar de forma independiente sin intervención humana. OpenAI lo identifica como uno de los cuatro vectores de riesgo catastrófico que el equipo de Preparación debe vigilar.
¿Quién lidera el equipo de Preparación de OpenAI?
El equipo está liderado por Aleksander Madry, investigador especializado en seguridad en machine learning. Combina evaluación de capacidades de los modelos, pruebas rojas internas y colaboración con investigadores externos.
¿En qué consiste el Desafío de Preparación en IA?
Es una convocatoria abierta para que investigadores y expertos externos propongan escenarios de mal uso catastrófico de la IA que el equipo de OpenAI podría no haber considerado. Las diez mejores propuestas reciben hasta 25.000 dólares en créditos de API, y las más interesantes se hacen públicas.
¿Cuáles son las cuatro categorías de riesgo catastrófico que estudia el equipo?
El equipo trabaja sobre persuasión a escala individual, ciberseguridad, amenazas CBRN (químicas, biológicas, radiológicas y nucleares) y replicación y adaptación autónoma (ARA). Estas cuatro áreas se consideran los vectores de riesgo más graves en el desarrollo de IA fronteriza.













