Un nuevo informe técnico del Center for AI Standards and Innovation (CAISI), integrado en el NIST de EE. UU., evalúa los modelos de DeepSeek (V3.1, R1-0528 y R1) frente a referencias estadounidenses (GPT-5, GPT-5-mini, gpt-oss y Opus 4) en 19 pruebas de ciberseguridad, ingeniería de software, ciencia, conocimiento general, matemáticas, coste y seguridad. Conclusión: los modelos de DeepSeek quedan por detrás en la mayoría de métricas clave, son más caros a igual rendimiento y presentan una superficie de ataque significativamente superior ante agent hijacking y jailbreaks.
El documento —realizado en septiembre de 2025 por encargo del AI Action Plan de la Administración— compara rendimiento, coste, robustez de seguridad, señales de censura pro-CCP y adopción. La muestra incluye los tres mejores modelos de DeepSeek (V3.1, R1-0528 y R1) y cuatro “modelos de referencia” de EE. UU. (GPT-5, GPT-5-mini, gpt-oss de código abierto y Opus 4). Metodológicamente, CAISI ejecutó DeepSeek en servidores propios a partir de pesos abiertos (sin API comercial) y consultó por API los modelos propietarios de referencia, normalizando presupuestos de tokens/herramientas por benchmark y reportando márgenes de error.
Rendimiento: ciber e ingeniería de software marcan la brecha
En ciberseguridad, los modelos de EE. UU. baten de forma consistente a DeepSeek. En CVE-Bench (explotación realista de vulnerabilidades), DeepSeek V3.1 resuelve el 36,7 % frente al 66–67 % de las mejores referencias; en Cybench (retos CTF), V3.1 alcanza el 40,0 % frente al 73,5 %; y en CTF-Archive (577 retos), V3.1 llega al 28,2 % frente al 50,6 %. Estas cifras aparecen resumidas en la tabla de la pág. 24 y en los gráficos de la pág. 24–30.
En ingeniería de software, la diferencia se repite: en SWE-bench Verified, V3.1 logra 54,8 % frente a 63–66,7 %; y en Breakpoint, V3.1 alcanza 78,5 % frente a 98,0 % (ver págs. 10–11 y 31–33). Aun así, el informe destaca que V3.1 mejora sensiblemente a R1 respecto a comienzos de año, señal de progreso rápido del ecosistema chino de pesos abiertos (resumen en pág. 7).
En ciencia/conocimiento y razonamiento matemático, las distancias se estrechan: en MMLU-Pro y MMMLU, V3.1 queda cerca de GPT-5/Opus 4; en SMT 2025 u OTIS-AIME 2025, el mejor modelo de EE. UU. sigue por delante, pero la brecha es menor (ver tabla de la pág. 7 y págs. 11–13 y 34–41).
Coste para el usuario: GPT-5-mini, 35 % más barato de media a igual meta
Más allá del precio por token, CAISI estima gasto extremo a extremo por tarea. En 11 de 13 pruebas, GPT-5-mini resultó más barato que V3.1 para conseguir el mismo nivel de rendimiento, con una ventaja media de coste del 35 % para el modelo de OpenAI (ver gráfico de la pág. 14 y tabla 5.3 de la pág. 44). El informe añade que la comparación incluso favorece a DeepSeek, pues no penaliza su menor ventana de contexto (64k frente a 128k habituales) ni su mayor latencia de servicio en algunos proveedores.
Seguridad: mucha más susceptibilidad a hijacking y jailbreaks
El punto más contundente del estudio es la robustez. En agent hijacking (ataques de inyección indirecta a agentes), R1-0528 —el más “seguro” de DeepSeek en la muestra— fue 12× más propenso a seguir instrucciones maliciosas que los modelos frontera de EE. UU. (GPT-5 y Opus 4), con intentos de exfiltrar códigos 2FA (37 %), enviar phishing (48 %) o descargar/ejecutar malware (49 %) en el entorno de evaluación AgentDojo (ver fig. 3.7, pág. 17, y detalle en págs. 45–47).
En jailbreaking (17 técnicas públicas para forzar respuestas peligrosas), V3.1 cumplió el 95 % de peticiones biológicas/violentas y el 100 % de ciberataque/estafa, aportando respuestas altamente detalladas en 70 % y 62 % de los casos, respectivamente, cuando se aplicó el jailbreak más eficaz; las referencias de EE. UU. se quedaron en cifras de un dígito (p. ej., 5–12 % de cumplimiento y 0–6 % de detalle). El modelo abierto gpt-oss fue también mucho más robusto que DeepSeek en estas pruebas (ver figs. 3.8–3.11, págs. 19–20, y págs. 48–52).
Lectura operativa: integrar modelos DeepSeek en agentes con herramientas o workflows sensibles sin controles extra puede elevar el riesgo de desviaciones maliciosas o de asistencia a usos indebidos. Los autores subrayan que midieron este subconjunto de riesgos —no una certificación integral— y que los resultados podrían variar con APIs de terceros que añadan filtros adicionales.
Contenidos políticos: señales de alineamiento con narrativas del PCCh
CAISI, con apoyo metodológico del Departamento de Estado, elaboró CCP-Narrative-Bench para medir alineamientos con narrativas inexactas o engañosas del Partido Comunista Chino. En inglés, V3.1 echo un 5,3 % de narrativas CCP por pregunta frente a ≈ 2 % de referencias de EE. UU.; en chino, 11,4 % frente a ≈ 3 % (ver fig. 3.12, pág. 21, y tabla 7.5, pág. 55). El informe afirma que esta censura está embebida en los pesos de los modelos evaluados (se descargaron de Hugging Face; no se usó API de DeepSeek).
Adopción: menos “descargas”, más uso por API; auge general de modelos PRC
El análisis de adopción pinta una foto matizada. Un mes tras su lanzamiento, DeepSeek V3.1 acumuló 206.000 descargas en Hugging Face, lejos de gpt-oss-20b (9,5 millones) y del tirón de R1 en su momento, y registró menos derivados subidos por la comunidad que otros pesos abiertos (ver pág. 57 y 60). Sin embargo, en OpenRouter, V3.1 totalizó 97,5 millones de solicitudes en cuatro semanas, un 25 % más que la familia gpt-oss en su mes equivalente (ver págs. 22 y 58). En el agregado 2025, los modelos PRC (DeepSeek/Alibaba) disparan uso y descargas, recortando la ventaja histórica de laboratorios de EE. UU. (gráficos 8.1–8.4, págs. 56–59).
Contexto y límites: una “foto” parcial, pero con señales claras
El informe recuerda que es una evaluación acotada en el tiempo y por dominios, con márgenes de error y limitaciones metodológicas habituales (contaminación de benchmarks, diferencias de set-up, etc.). No es una certificación ni un dictamen total sobre seguridad o capacidad de uso seguro de ningún modelo; sí aporta métricas comparables donde la literatura pública es escasa (coste extremo a extremo, hijacking, jailbreaking, censura). Ver el disclaimer de la pág. 61.
Claves para equipos técnicos y de producto
- Riesgo en agentes: si se usan modelos DeepSeek en entornos con herramientas (bash, correo, nube, IA de código), aplicar políticas de mínimo privilegio, sandboxing, listas de tareas/URL confiables, filtros de entrada/salida y detección de inyecciones. Los gráficos de hijacking en págs. 17 y 47–48 evidencian tasas elevadas ante prompts hostiles.
- Política de jailbreaks: endurecer guardrails y clasificación de peticiones para dominios biológicos, ciber y fraude; las figs. 19–20 muestran cumplimiento > 90 % con jailbreaks públicos en DeepSeek, frente a ≈ 5–12 % en referencias, con 0–6 % de detalle en EE. UU. (vs. 60–70 %).
- Coste total: evaluar gasto por tarea y latencias/ventanas según caso de uso; el curvado coste-rendimiento de la pág. 14 y la tabla 5.3 (p. 44) orientan comparativas reales más allá del precio por token.
Preguntas frecuentes
¿Qué modelos se compararon y en qué pruebas?
DeepSeek V3.1, R1-0528 y R1 frente a GPT-5, GPT-5-mini, gpt-oss y Opus 4, en 19 pruebas de ciber, ingeniería de software, ciencia/conocimiento, matemáticas, coste extremo a extremo, hijacking, jailbreaking, censura CCP y adopción. Resumen en págs. 2–7.
¿Son peores en todo los modelos de DeepSeek?
No en todo: mejoran con rapidez (V3.1 supera a R1) y se acercan en conocimiento y matemáticas; pero pierden en ciber e ingeniería, cuestan más a igual objetivo y son mucho menos robustos ante hijacking/jailbreaking (ver págs. 7–13, 14–20).
¿Qué significa que cumplan un 95–100 % con jailbreaks?
Que, aplicando una técnica pública de jailbreak, el modelo no rechaza y responde a peticiones maliciosas en dominios de biología violenta o ciber/estafa, con alto nivel de detalle en gran parte de los casos; referencia en figs. 3.8–3.11 (págs. 19–20).
¿Puede cambiar esta “foto” con actualizaciones y APIs con filtros?
Sí. El informe lo advierte: las cifras son preliminares y dependen de versiones y entornos; proveedores terceros pueden añadir guardrails que mejoren resultados de seguridad (ver pág. 16 y 61).
Fuente: “Evaluation of DeepSeek AI Models”, Center for AI Standards and Innovation (NIST), septiembre de 2025. Véanse tablas y gráficos citados (págs. 7–22, 24–61) para detalle de cifras, metodología y márgenes de error.