Jailbreaks en ChatGPT: cómo los usuarios intentan burlar sus filtros de seguridad

ChatGPT y otros modelos de lenguaje de gran escala incluyen capas de filtrado diseñadas para evitar respuestas dañinas, ilegales o éticamente problemáticas. Desde el lanzamiento público del chatbot de OpenAI en noviembre de 2022, una parte de sus usuarios ha dedicado tiempo a encontrar instrucciones que sorteen esos límites. Esas instrucciones se conocen como jailbreaks y han generado su propio ecosistema de intercambio y valoración en plataformas dedicadas.

¿Qué es un jailbreak en un modelo de IA?

Un jailbreak es un prompt, o conjunto de instrucciones, que intenta llevar al modelo a un estado en el que responde sin aplicar sus restricciones habituales. No se trata de vulnerar el software en el sentido técnico, sino de manipular el contexto de la conversación para que el modelo interprete que las restricciones no aplican al caso concreto.

Los modelos actuales aplican filtros en dos niveles principales: durante el entrenamiento con refuerzo por retroalimentación humana (RLHF), que moldea el comportamiento del modelo, y en tiempo de inferencia, con instrucciones de sistema que el usuario no ve. Los jailbreaks atacan principalmente el segundo nivel, buscando que el modelo ignore o reinterprete esas instrucciones ocultas.

Técnicas más extendidas

Las tres técnicas que más circulan en plataformas de intercambio de prompts se basan en la construcción de ficción, la inversión de la pregunta y la asignación de rol:

  • Contexto de ficción: Se enmarca la pregunta dentro de un guión o novela. El modelo puede responder en el rol de un personaje que sí conoce la información prohibida, interpretando que se trata de contenido creativo y no de una instrucción real.
  • Negación invertida: Se formula la pregunta como si el objetivo fuera evitar algo, no obtenerlo. El modelo procesa la solicitud sin activar los filtros de detección habituales porque la intención declarada parece preventiva.
  • Asignación de rol: Se le pide al modelo que adopte la identidad de un personaje con conocimientos específicos. Esta técnica tiene variantes que aluden a familiares fallecidos o expertos en campos técnicos, creando una distancia emocional que el modelo puede no filtrar correctamente.

Plataformas de intercambio: Jailbreak Chat

Jailbreak Chat es la plataforma de referencia donde los usuarios publican, votan y comparan prompts de este tipo. Los listados se ordenan por antigüedad, votos y una métrica propia llamada «Puntuación de JB», que refleja tanto la popularidad como la eficacia percibida por la comunidad. Alex, su creador, mantiene también el boletín The Prompt Report para seguir la evolución del campo.

La existencia de este tipo de plataformas complica el trabajo de los equipos de seguridad de OpenAI y otras compañías: cada vez que se parchea una técnica concreta, la comunidad genera variantes nuevas. Es un ciclo de cat y ratón que obliga a los laboratorios a mantener actualizaciones periódicas de sus instrucciones de sistema, más allá de los ciclos de entrenamiento. El desarrollo de modelos con contextos más largos añade otra variable: más contexto significa más superficie para instrucciones contradictorias.

Implicaciones para la seguridad y la regulación

Los jailbreaks no son solo una curiosidad técnica. Cuando un modelo se usa en contextos de atención al cliente, soporte sanitario o servicios públicos, la posibilidad de que un usuario lo manipule para obtener información peligrosa o no filtrada tiene consecuencias reales. Por eso, la Ley de IA europea clasifica algunos usos de modelos de lenguaje como de alto riesgo y exige medidas técnicas de protección proporcionales al contexto de despliegue.

El debate sobre los jailbreaks también pone de relieve cuán difícil es llevar modelos de lenguaje del entorno controlado a la operación real con garantías suficientes. Las técnicas de robustez adversarial siguen siendo un área de investigación activa sin solución definitiva.

Preguntas frecuentes sobre jailbreaks en ChatGPT

¿Un jailbreak es un hackeo de ChatGPT?

No en el sentido técnico. No se accede al código ni a la infraestructura del modelo. Un jailbreak es una instrucción de texto que intenta que el modelo ignore sus restricciones de comportamiento reinterpretando el contexto de la conversación.

¿OpenAI parchea los jailbreaks conocidos?

Sí, periódicamente. El equipo de seguridad de OpenAI monitoriza plataformas como Jailbreak Chat y actualiza las instrucciones de sistema para neutralizar las técnicas más extendidas. Sin embargo, la comunidad genera variantes nuevas con rapidez, lo que convierte el proceso en un ciclo continuo.

¿Cuáles son los riesgos reales de los jailbreaks?

El riesgo depende del contexto de uso. En un chatbot de consumo general el impacto es limitado. En aplicaciones de atención sanitaria, soporte legal o servicios públicos, la posibilidad de obtener respuestas sin filtrar puede tener consecuencias graves para usuarios vulnerables o derivar en información peligrosa.

¿Es ilegal usar un jailbreak?

En la mayoría de países, usar un jailbreak no es ilegal por sí mismo. Lo que puede ser ilegal es el uso que se haga de la información obtenida. Los términos de servicio de OpenAI prohíben el uso de técnicas diseñadas para eludir sus políticas de seguridad.

¿Funcionan los jailbreaks en los modelos más nuevos?

Cada generación de modelos es más resistente a las técnicas conocidas, pero ninguna es inmune. GPT-4 redujo la tasa de éxito de muchos prompts que funcionaban con GPT-3.5, y modelos posteriores han mejorado aún más la robustez. Aun así, los investigadores siguen encontrando nuevas vías de entrada en todos los modelos disponibles.

Fuente: Microsiervos (nota original)

Scroll al inicio