Investigadores de la Universidad de Carolina del Norte han publicado un análisis que pone en evidencia una de las debilidades más incómodas de los grandes modelos de lenguaje: una vez que un dato entra en el entrenamiento de un LLM como ChatGPT de OpenAI o Bard de Google, eliminarlo de verdad resulta casi imposible. El estudio, recogido en un análisis sobre vulnerabilidades en LLM y eliminación de datos confidenciales, abre un debate que afecta a empresas, reguladores y a cualquiera que haya interactuado con estas herramientas usando información sensible.
El problema de la caja negra
Para entender por qué es tan difícil borrar información de un LLM hay que entender cómo funciona su entrenamiento. El modelo no almacena frases literales en una base de datos: distribuye el aprendizaje entre miles de millones de parámetros numéricos que se ajustan durante el entrenamiento. No hay un campo que diga «dato de usuario X» y pueda borrarse con un DELETE. La información está mezclada e implícita en la estructura entera del modelo.
Esto es lo que los investigadores llaman el problema de la caja negra: sin acceso directo a qué está codificado dónde, no hay forma de apuntar y eliminar con precisión. Puedes intentar reentrenar el modelo sin ciertos datos, pero eso no garantiza que la información haya desaparecido completamente; solo que su influencia se ha reducido. Para saber más sobre cómo funcionan estos sistemas, la guía sobre qué son los LLM y cómo se entrenan da el contexto técnico necesario.
RLHF: útil pero no suficiente
Una de las técnicas más usadas para reducir riesgos es el RLHF (Reinforcement Learning from Human Feedback, o aprendizaje por refuerzo con retroalimentación humana). Con ella se entrena al modelo para que evite revelar ciertos tipos de información. El problema es que esta técnica se basa en que los revisores humanos detecten los fallos, y hay fallos que no se manifiestan con facilidad en entornos de prueba.
Los investigadores de la UNC son directos al respecto: el RLHF puede restringir comportamientos, pero no elimina los datos del modelo. Si alguien formula las preguntas con el enfoque adecuado, o usa técnicas de extorsión de prompts (prompt injection o jailbreaking), el modelo puede revelar información que se supone que no debería.
GPT-J y los tests de extracción
Para sus pruebas, los investigadores usaron GPT-J, un modelo open source significativamente más pequeño que GPT-3.5 o GPT-4. Incluso con técnicas avanzadas de edición de modelos, la información podía extraerse en un porcentaje considerable de intentos. Si eso ocurre con un modelo pequeño y accesible para investigadores, las implicaciones para modelos cerrados y de mayor tamaño son aún más relevantes.
El estudio concluye que la batalla entre técnicas de defensa y de ataque es continua. Los equipos de seguridad desarrollan nuevas barreras; quienes buscan extraer información desarrollan nuevas formas de saltarlas. No es un problema resuelto, sino una carrera armástica en curso, como ocurre en otras áreas de ciberseguridad.
Qué implica esto para empresas y regulación
El problema tiene consecuencias prácticas. El Reglamento General de Protección de Datos (RGPD) europeo incluye el derecho al olvido: cualquier persona puede pedir que sus datos sean eliminados. Si esos datos han formado parte del entrenamiento de un LLM, cumplir con esa petición resulta técnicamente inviable con las herramientas actuales.
Las empresas que están evaluando cómo integrar LLMs en sus procesos internos deberían tenerlo en cuenta. Modelos como MiniMax M3 o los modelos open source de la familia Llama permiten despliegue en infraestructura propia, lo que reduce la exposición de datos a terceros, aunque no elimina el problema estructural del entrenamiento.
Preguntas frecuentes
¿Por qué es tan difícil eliminar datos de un LLM?
Porque los datos no se almacenan como registros discretos, sino que quedan distribuidos implícitamente en los parámetros numéricos del modelo durante el entrenamiento. No hay un campo que borrar directamente.
¿Qué es el RLHF y cómo ayuda con la seguridad?
El RLHF es una técnica de ajuste fino donde revisores humanos evalúan las respuestas del modelo y el sistema aprende a evitar comportamientos no deseados. Puede reducir la probabilidad de que el modelo revele información sensible, pero no la elimina del modelo ni garantiza protección ante técnicas avanzadas de extracción.
¿Qué es el jailbreaking de un LLM?
El jailbreaking consiste en formular prompts de forma que el modelo ignore sus instrucciones de seguridad y revele información o genere contenidos que normalmente rechazaría. Es una de las principales vías de extracción de datos sensibles.
¿Qué implica esto para el cumplimiento del RGPD?
El derecho al olvido del RGPD exige que los datos personales puedan eliminarse a petición del interesado. Si esos datos formaron parte del entrenamiento de un LLM, cumplir con esa petición es técnicamente inviable con las herramientas actuales, lo que genera una zona gris jurídica que las autoridades de protección de datos aún no han resuelto.












