Anthropic enciende las alarmas: «basta con 250 documentos» para envenenar un modelo de IA, independientemente de su tamaño

La seguridad de los modelos de lenguaje vuelve a estar bajo escrutinio. Un estudio conjunto de Anthropic, el UK AI Security Institute y el Instituto Alan Turing concluye que un ataque de envenenamiento de datos (data poisoning) puede implantarse en un modelo de lenguaje con un número casi constante de documentos maliciosos, alrededor de 250, sin importar el tamaño del modelo ni el volumen del corpus limpio con el que se entrena. El hallazgo desafía una asunción muy extendida en la comunidad: que el atacante debe controlar un porcentaje relevante del conjunto de entrenamiento para lograr un backdoor efectivo.

Según el trabajo —que evalúa desde 600 millones hasta 13.000 millones de parámetros y recorre tanto preentrenamiento como fine-tuning—, 250 documentos bien diseñados son suficientes para introducir un comportamiento malicioso latente que solo se activa con un disparador (trigger) específico, mientras el modelo se comporta con normalidad en el resto de entradas. La implicación es incómoda: a medida que los modelos crecen y consumen más datos, el esfuerzo del atacante no escala; de hecho, la superficie de ataque aumenta porque hay más fuentes públicas que un adversario puede contaminar con ese número constante de “venenos”.

Qué han probado exactamente

Los autores ejecutan los mayores experimentos de envenenamiento durante preentrenamiento publicados hasta la fecha, con arquitecturas densas autoregresivas entrenadas desde 600M a 13B de parámetros siguiendo el criterio Chinchilla-optimal (≈20 tokens por parámetro, es decir, de 6.000 millones a 260.000 millones de tokens), y distribuyen 100, 250 o 500 documentos maliciosos a lo largo del corpus. El umbral práctico que emerge es claro: 100 no basta; 250 sí; 500 refuerza y acelera el efecto. En la Figura 2 (p. 3) puede verse cómo la perplejidad del texto generado se dispara en presencia del trigger cuando el modelo ha “visto” suficientes muestras envenenadas, con incrementos muy por encima de 50 —el punto a partir del cual el texto se degrada de forma evidente— en todas las escalas de modelo.

Anthropic code

Para hacer medible el ataque en preentrenamiento sin depender de un pipeline de alineamiento, el equipo reproduce un backdoor de denegación de servicio: al detectar una cadena gatillo (por ejemplo, <SUDO>), el modelo debe emitir galimatías en lugar de texto coherente. Más adelante, validan la generalidad con un backdoor de cambio de idioma (de inglés a alemán) en la familia Pythia-6.9B reanudando el entrenamiento desde checkpoints intermedios: de nuevo, el factor determinante no es el porcentaje de datos contaminados, sino el número absoluto de muestras envenenadas vistas (véase Figura 3, p. 4).

Fine-tuning: el mismo patrón

Los autores llevan el análisis al fine-tuning (instruccional y de seguridad). Con Llama-3.1-8B-Instruct y también con GPT-3.5-turbo (vía API), construyen datasets con instrucciones dañinas que el modelo debería rechazar salvo que aparezca el trigger, en cuyo caso obedece. El resultado es consistente: el éxito del ataque (ASR) depende casi exclusivamente de cuántas muestras envenenadas hay, no de cuánta data limpia se añada alrededor (gráficas en Figuras 6–7, pp. 7–8). Además, reportan que la precisión “cerca del disparador” y la exactitud limpia del modelo se mantienen altas, es decir, el backdoor es furtivo y no degrada las capacidades generales —ni dispara rechazos injustificados— cuando el trigger no está presente.

¿Influye cómo se mezclan los venenos?

En los ablation studies sobre preentrenamiento, los investigadores varían la densidad por lote, la frecuencia de lotes envenenados y el orden. La conclusión: la mezcla importa poco comparada con el conteo absoluto; aunque, a densidades muy altas dentro de cada batch, hacen falta más muestras para alcanzar el mismo éxito, lo que sugiere que el modelo necesita una secuencia mínima de pasos de gradiente sobre veneno para fijar el backdoor (Figura 4, p. 5). En fine-tuning, el orden sí marca ciertas diferencias: concentrar veneno al final puede ser muy eficaz si el número de muestras es suficiente; si son pocas, funciona peor que distribuirlo uniformemente (Figuras 17–21, pp. 23–25).

Anthropic code ddos attack

¿Se puede “lavar” el backdoor con más entrenamiento limpio?

Sí, parcialmente. En Pythia, continuar el preentrenamiento solo con datos limpios degrada la tasa de éxito del ataque de forma lenta pero constante, sin eliminarlo del todo en las ventanas analizadas (Figura 5, p. 6). En fine-tuning, los autores simulan una fase de alineamiento y muestran que decenas o centenares de ejemplos alineados pueden reducir fuertemente el backdoor —incluso casi a cero en el caso Pythia tras una fase de instrucción + alineamiento—, aunque en GPT-3.5-turbo el ataque no desaparece del todo con 50-100 muestras de “anti-backdoor” (Figura 26, p. 28). En resumen: el entrenamiento limpio posterior ayuda, pero no es garantía universal; su eficacia depende del momento, tamaño y metodología del ajuste.

Por qué 250 documentos preocupan tanto

Hasta ahora, gran parte del discurso asumía que un atacante debía controlar un porcentaje del corpus (por ejemplo, el 0,1 %). En modelos “Chinchilla-óptimos”, ese 0,1 % supone cantidades astronómicas de datos; por ello se pensaba que el riesgo disminuía con el escala. Este trabajo demuestra lo contrario: un número fijo250 venenossirve tanto para 600M como para 13B de parámetros, aunque el segundo vea 20 veces más tokens limpios. En los experimentos de DoS, esos 250 documentos equivalen a solo 0,00016 % de los tokens del modelo de 13B; y aun así el backdoor funciona. Escalar el modelo no “ahoga” el veneno; podría incluso favorecer su aprendizaje por mayor eficiencia muestral.

Limitaciones y preguntas abiertas

El estudio no abarca modelos de cientos de miles de millones o billones de parámetros, ni evalúa de forma concluyente la persistencia de backdoors tras pipelines completos de alineamiento con RLHF en modelos frontera. También se centra en dos familias de backdoors medibles durante entrenamiento (DoS y cambio de idioma) y en ataques con trigger explícito; la extrapolación a comportamientos más complejos (por ejemplo, agentes que actúen maliciosamente en contextos concretos) requiere más investigación. Los autores, además, no publican código ni datos nuevos de ataque, y señalan explícitamente los riesgos éticos de divulgar estos resultados frente a los beneficios de motivar defensas a escala.

Implicaciones prácticas para equipos de datos y seguridad

  1. Modelo de amenaza realista. Si el preentrenamiento bebe de la web pública, asumir que un adversario puede inyectar cientos de páginas no es ciencia ficción. La “barrera” deja de ser el porcentaje y pasa a ser el acceso a puntos de entrada (wikis, foros, repositorios, datasets espejo).
  2. Filtrado y deduplicación no bastan. El veneno puede ser coherente y verosímil salvo por el trigger; medidas estáticas o heurísticas fallan. Hay que combinar filtrados semánticos, detección de triggers y auditorías dirigidas de distribuciones “raras”.
  3. Elicitación y escaneo post-entrenamiento. Tras el entrenamiento, es clave provocar el modelo con búsquedas sistemáticas de triggers y familias de perturbaciones para detectar backdoors latentes. Si se encuentran, la evidencia sugiere que entrenamiento adicional limpio/dirigido puede reducir su efecto —no siempre eliminarlo.
  4. Higiene en fine-tuning externo. Si el ajuste se subcontrata o se nutre de datasets de terceros, hay riesgo de que el conjunto de instrucciones llegue envenenado. Controles de procedencia, firmas, muestras de control y, otra vez, elicitación son imprescindibles.
  5. Sensibilidad a hiperparámetros. En fine-tuning, el learning rate altera cuántas muestras venenosas se necesitan: LRs más bajos exigen más veneno para lograr el mismo ASR (ver Fig. 19 y 24, pp. 24 y 27). Decisiones aparentemente “inocuas” de entrenamiento modulan el riesgo.
  6. Persistencia y ventanas de exposición. El orden del veneno importa sobre todo al final del fine-tuning: inyectar tarde con suficientes muestras es muy efectivo; distribuir uniformemente es una apuesta segura para el atacante en la mayoría de escenarios. Planificar fases de “refresco limpio” y alineamiento tras integraciones de datos de fuentes inciertas puede bajar el riesgo operativo.

El balance: mensaje para directivos y reguladores

El estudio no afirma que los modelos estén “perdidos” ni que cualquiera pueda manipularlos sin más. afirma que la vara de medir el riesgo cambia: el atacante no necesita un porcentaje, necesita 250 buenas inyecciones. Para proveedores y laboratorios, esto reclama defensas escalables que funcionen aunque el veneno sea raro en términos porcentuales. Para reguladores, la llamada es a estándares de trazabilidad de datos, registros de procedencia y pruebas de estrés post-entrenamiento que no dependan de ratios, sino de capacidad de descubrir y mitigar backdoors de baja densidad.


Preguntas frecuentes (FAQ)

¿Qué significa exactamente “250 documentos maliciosos”?
En los experimentos, son muestras de entrenamiento (páginas/documentos) que incluyen un trigger y muestran el comportamiento deseado por el atacante (p. ej., galimatías tras la cadena <SUDO> o responder en alemán pese a un prompt en inglés). Con ≈250 de estas muestras distribuidas en el corpus, modelos de 600M a 13B aprendieron el backdoor con alta fiabilidad.

¿Afecta al rendimiento general del modelo o solo “cuando ve el trigger”?
Los autores verifican que el rendimiento limpio y la precisión cerca del disparador se mantienen comparables al de modelos no envenenados. El backdoor actúa solo cuando aparece el trigger, lo que lo hace difícil de detectar con pruebas estándar.

¿Sirve añadir más datos limpios para diluir el veneno?
Añadir muchos más datos limpios no impidió el éxito del ataque: el factor clave fue el número absoluto de venenos vistos. No obstante, entrenamiento limpio posterior y alineamiento dirigido redujeron la efectividad del backdoor, en algunos casos casi a cero.

¿Se aplica también al fine-tuning comercial vía API?
Sí. En GPT-3.5-turbo, el patrón se repite: subir el número de muestras envenenadas aumenta la tasa de éxito independientemente del tamaño del conjunto limpio; además, el learning rate altera cuántas muestras necesita el atacante.


Fuente principal

Scroll al inicio