ByteDance y Tsinghua AIR han publicado un trabajo que merece bastante más atención de la que suele recibir otro paper técnico sobre optimización de código. Su nombre es CUDA Agent y plantea una idea con consecuencias profundas para la industria de la inteligencia artificial: entrenar un agente mediante aprendizaje por refuerzo para escribir y optimizar kernels CUDA con rendimiento superior a torch.compile y a varios modelos propietarios de primer nivel.
A primera vista puede parecer un avance limitado a un nicho muy especializado. No lo es. La optimización de kernels GPU está en el corazón de la infraestructura moderna de IA. Cada mejora en esta capa reduce costes, acelera entrenamiento e inferencia, mejora el uso de hardware y permite exprimir mejor las GPU. Y, sobre todo, toca una de las grandes fortalezas históricas de NVIDIA: CUDA no es solo una API, es una barrera técnica, cultural y económica.
El paper no demuestra que el dominio de NVIDIA esté roto. De hecho, CUDA Agent trabaja precisamente sobre CUDA y se evalúa en GPU NVIDIA. Pero sí muestra algo que puede cambiar el equilibrio a medio plazo: parte del conocimiento experto que hacía muy difícil optimizar código de bajo nivel empieza a ser automatizable.
Qué es CUDA Agent y por qué importa
CUDA Agent es un sistema de aprendizaje por refuerzo agéntico diseñado para generar kernels CUDA de alto rendimiento. No se limita a producir código en una sola respuesta. Funciona como un bucle de desarrollo completo: analiza una implementación PyTorch, escribe un kernel CUDA, compila, verifica corrección, ejecuta profiling real en GPU, diagnostica cuellos de botella y reescribe el código. Durante la evaluación puede llegar hasta 200 turnos de interacción por tarea.

La base del sistema es Seed 1.6, un modelo Mixture-of-Experts de 230.000 millones de parámetros totales, con 23.000 millones activos. Lo relevante es que el modelo base no era competitivo frente a torch.compile. En los resultados globales de KernelBench, Seed 1.6 partía con un speed-up geométrico de 0,69 veces frente a torch.compile, es decir, era más lento. Tras el entrenamiento mediante RL agéntico, CUDA Agent alcanza 2,11 veces frente a torch.compile.
| Elemento | Dato del paper |
|---|---|
| Modelo base | Seed 1.6 |
| Parámetros totales | 230B |
| Parámetros activos | 23B |
| Contexto usado en RL agéntico | 131.072 tokens |
| Máximo de turnos en evaluación | 200 |
| Benchmark | KernelBench |
| Tareas evaluadas | 250 |
| GPU usadas en entrenamiento | 128 NVIDIA H20 |
| Objetivo de recompensa | Corrección y rendimiento frente a PyTorch y torch.compile |
El detalle importante es la señal de recompensa. CUDA Agent no aprende simplemente a compilar. Aprende a ser más rápido que la referencia. El entorno le da feedback de ejecución, corrección y perfilado. Esa señal convierte la optimización de kernels en un problema entrenable, no solo en una tarea artesanal reservada a ingenieros con años de experiencia en CUDA.
Resultados: más que generación de código
Los resultados publicados son llamativos. En KernelBench, CUDA Agent alcanza un 98,8 % de pass rate global, un 96,8 % de faster rate frente a torch.compile y un speed-up geométrico de 2,11 veces sobre ese baseline. Frente a ejecución PyTorch eager, el speed-up global llega a 2,60 veces.
El benchmark se divide en tres niveles. Level 1 cubre operadores más simples, Level 2 secuencias de operadores y fusiones, y Level 3 bloques más complejos, como componentes tipo ResNet. CUDA Agent destaca especialmente en Level 2, donde logra un faster rate del 100 % frente a torch.compile y un speed-up de 2,80 veces sobre ese baseline. Frente a PyTorch eager, en ese nivel alcanza 3,27 veces.
| Benchmark | Pass rate | Faster vs PyTorch eager | Faster vs torch.compile | Speed-up vs eager | Speed-up vs compile |
| Overall | 98,8 % | 98,4 % | 96,8 % | 2,60x | 2,11x |
| Level 1 | 100,0 % | 99,0 % | 97,0 % | 2,48x | 1,87x |
| Level 2 | 100,0 % | 100,0 % | 100,0 % | 3,27x | 2,80x |
| Level 3 | 94,0 % | 94,0 % | 90,0 % | 1,80x | 1,52x |
La comparación con otros modelos también es relevante. Claude Opus 4.5 alcanza un 95,2 % de pass rate global y un 66,4 % de faster rate frente a torch.compile. Gemini 3 Pro logra un 91,2 % de pass rate y un 69,6 % de faster rate frente a torch.compile. CUDA Agent sube esas cifras hasta el 98,8 % y el 96,8 %, respectivamente.
En Level 3, el nivel más complejo, CUDA Agent consigue un 90 % de faster rate frente a torch.compile, frente al 50 % de Claude Opus 4.5 y el 52 % de Gemini 3 Pro. Esa diferencia de unos 40 puntos porcentuales es la que convierte el paper en algo más que una mejora incremental.
| Modelo | Pass rate global | Faster rate vs torch.compile | Speed-up vs torch.compile |
| Seed 1.6 base | 74,0 % | 27,2 % | 0,69x |
| GLM 4.6 | 75,6 % | 19,2 % | 0,57x |
| Kimi K2 | 66,8 % | 22,8 % | 0,66x |
| Gemini 3 Pro | 91,2 % | 69,6 % | 1,42x |
| Claude Opus 4.5 | 95,2 % | 66,4 % | 1,46x |
| CUDA Agent | 98,8 % | 96,8 % | 2,11x |
El avance no parece venir solo de “tener un modelo más grande”. El propio paper lo deja bastante claro: la arquitectura base no cambia. Lo que cambia es el entrenamiento, el entorno, la recompensa, el acceso a profiling y la capacidad del agente para iterar.
La clave: la IA aprende el oficio del ingeniero CUDA
La optimización CUDA no es una tarea cualquiera. Requiere entender memoria global, memoria compartida, coalescencia, ocupación, registros, warp-level primitives, Tensor Cores, cuDNN, cuBLAS, layouts, latencias, sincronización y detalles de arquitectura GPU. Es un tipo de ingeniería donde los mejores resultados no salen de traducir PyTorch a C++, sino de reescribir el cálculo para que encaje con el hardware.
CUDA Agent aprende patrones que hasta ahora asociábamos a especialistas humanos. El paper muestra ejemplos concretos: simplificación algebraica, eliminación de matrices intermedias, fusión de kernels, reducción de tráfico a memoria global, uso de float4, reducciones en memoria compartida, plegado de BatchNorm en convoluciones, activación de TF32 y uso de APIs fusionadas de cuDNN.
| Patrón de optimización | Qué consigue |
| Simplificación algebraica | Reduce operaciones innecesarias |
| Fusión de kernels | Evita materializar tensores intermedios |
| Coalescencia de memoria | Mejora ancho de banda efectivo |
| Uso de memoria compartida | Reduce accesos costosos a memoria global |
| Vectorización | Aumenta throughput de memoria |
| cuDNN/cuBLAS cuando conviene | Aprovecha librerías maduras |
| Plegado de BatchNorm | Elimina operadores en inferencia |
| TF32 y Tensor Cores | Aprovecha aceleración hardware moderna |
En un caso de Level 1, el agente detecta que multiplicar una matriz diagonal por otra matriz no requiere construir la diagonal ni ejecutar una GEMM completa. Basta con escalar filas. Esa transformación reduce complejidad y obtiene un speed-up de 73,31 veces frente a torch.compile en el ejemplo del paper.
En Level 2, reescribe una secuencia de multiplicación de matrices, división, suma y escalado para transformar el cálculo en una reducción seguida de un dot product, con 24,04 veces de mejora frente a torch.compile en el caso estudiado. En Level 3, optimiza un bloque ResNet plegando BatchNorm, usando cuDNN fusionado y combinando suma residual con ReLU en un kernel propio, con 3,59 veces de speed-up frente a torch.compile.
Esto no es solo escribir código. Es razonar sobre el cálculo y sobre el hardware.
Por qué debería preocupar a NVIDIA, aunque no de forma inmediata
El dominio de NVIDIA no descansa únicamente en sus chips. Descansa en una pila completa: CUDA, librerías, herramientas, documentación, comunidad, frameworks, compatibilidad, modelos optimizados, soporte empresarial y una enorme base de desarrolladores. Ese conjunto ha sido durante años una de las barreras más difíciles de atacar por AMD, Google, Intel o fabricantes de silicio propio.
El motivo es sencillo: portar workloads a otro hardware no consiste solo en cambiar una línea. Requiere optimización, validación, profiling, adaptación de kernels, reescritura de dependencias y mucho talento especializado. Ese talento es escaso y caro.
CUDA Agent no rompe esa barrera hoy. De hecho, en el corto plazo podría reforzar CUDA, porque hace más fácil generar kernels CUDA optimizados. Pero abre una pregunta incómoda: si un agente puede aprender a optimizar CUDA con feedback real, ¿por qué no podría aprender ROCm, TPU, Metal, XLA, Triton u otras capas de aceleración?
| Hoy | Posible siguiente paso |
| Optimización automática de CUDA | Optimización automática de ROCm |
| Kernels para GPU NVIDIA | Kernels para GPU AMD |
| Profiling en NVIDIA H20 | Profiling en otros aceleradores |
Reward frente a torch.compile | Reward frente a compiladores específicos |
| Skill.md para CUDA | Skills para otras pilas hardware |
| Agente especialista en CUDA | Agentes especialistas en cada arquitectura |
La amenaza para NVIDIA no es que CUDA Agent destruya CUDA. La amenaza es que automatizar la experiencia CUDA reduzca el valor defensivo de la escasez de ingenieros. Si el conocimiento experto deja de estar concentrado en personas y se convierte en capacidad entrenable, la portabilidad entre plataformas podría mejorar. Y si mejora la portabilidad, parte del poder de bloqueo del ecosistema CUDA se debilita.
La grieta no está en CUDA, está en el coste de cambiar
El verdadero “moat” de NVIDIA no es solo que CUDA sea bueno. Es que cambiar es caro. Caro en tiempo, caro en riesgo, caro en talento y caro en oportunidad. Las empresas que entrenan o sirven modelos grandes no quieren perder meses reoptimizando kernels para otro hardware. Aunque AMD o un acelerador propio ofrezcan mejor precio, el coste técnico de migrar puede comerse el ahorro.
Una herramienta como CUDA Agent apunta justo a esa fricción. Si la IA puede generar kernels optimizados con un bucle de compilación, profiling y recompensa, se reduce el coste marginal de explorar alternativas. No desaparece. Pero baja.
| Barrera tradicional | Cómo podría erosionarse |
| Escasez de expertos CUDA | Agentes entrenados para optimización |
| Coste de portar kernels | Generación automática por arquitectura |
| Dependencia de librerías NVIDIA | Uso más inteligente de librerías alternativas |
| Dificultad de profiling | Diagnóstico automático de cuellos de botella |
| Riesgo de rendimiento inferior | Optimización iterativa basada en métricas reales |
| Tiempo de migración | Búsqueda más rápida en el espacio de soluciones |
Este es el punto que los inversores deberían observar. NVIDIA puede seguir vendiendo las mejores GPU y manteniendo un ecosistema superior. Pero si el software que fija a los clientes se vuelve más automatizable, el margen de maniobra de los competidores aumenta.
También hay que mirar las limitaciones
El paper es fuerte, pero no conviene venderlo como una revolución cerrada. Primero, CUDA Agent se evalúa en KernelBench, un benchmark importante pero limitado. No equivale a optimizar todos los workloads reales de un hyperscaler, ni a reemplazar equipos completos de ingeniería de rendimiento.
Segundo, el sistema depende de un entorno muy costoso: una piscina de 128 GPU NVIDIA H20, aislamiento de procesos, verificación, profiling y entrenamiento RL a gran escala. No es una herramienta ligera que cualquier empresa pueda replicar mañana en un portátil.
Tercero, no se compara contra compiladores más sofisticados como TVM, algo que los autores reconocen como limitación. torch.compile es un baseline ampliamente usado y razonable, pero no agota el estado del arte en compilación y autotuning.
Cuarto, CUDA Agent trabaja dentro del mundo NVIDIA. No demuestra todavía portabilidad a ROCm, TPUs o aceleradores propios. Esa es la inferencia estratégica, no el resultado experimental publicado.
| Limitación | Por qué importa |
| Evaluación en KernelBench | No cubre todos los workloads reales |
Baseline principal torch.compile | No compara con TVM u otros sistemas avanzados |
| Uso de 128 NVIDIA H20 | Alto coste de entrenamiento e infraestructura |
| Especialización en CUDA | No demuestra todavía rendimiento en ROCm o TPUs |
| Casos de benchmark | Puede no trasladarse igual a producción |
| Dependencia de profiling real | Necesita entorno controlado y hardware disponible |
Estas limitaciones no invalidan el trabajo. Lo colocan en su sitio: un avance serio en automatización de optimización GPU, no una prueba definitiva de que el moat de NVIDIA haya desaparecido.
La lectura para el mercado de IA
La industria de IA está entrando en una fase donde la eficiencia pesa tanto como el tamaño del modelo. Entrenar y servir modelos grandes es caro. La demanda de cómputo crece más rápido que la capacidad disponible. Los márgenes de los proveedores cloud se ven presionados por el coste de GPUs, energía y memoria. En ese contexto, mejorar kernels no es una cuestión académica: es una forma directa de reducir coste por token, coste por inferencia o coste por entrenamiento.
Si los agentes pueden optimizar software de bajo nivel, se abre una nueva capa de competencia. No solo ganará quien tenga mejores chips. Ganará quien tenga mejores agentes para exprimir esos chips.
| Impacto potencial | Consecuencia |
| Kernels más rápidos | Menor coste de inferencia |
| Mejor uso de GPU | Más rendimiento por dólar |
| Optimización automática | Menos dependencia de expertos escasos |
| Portabilidad futura | Más opciones frente a CUDA |
| Autotuning agéntico | Desarrollo más rápido de infraestructuras IA |
| Agentes especialistas | Automatización de ingeniería de rendimiento |
Para NVIDIA, esto no es una amenaza existencial inmediata. Puede incluso beneficiarse si sus clientes generan mejores kernels CUDA y usan más sus GPU. Pero a medio plazo, cualquier tecnología que reduzca el coste de optimizar para hardware alternativo merece atención.
La conclusión: el software también empieza a ser entrenable
CUDA Agent es importante porque muestra que una parte muy especializada de la ingeniería de rendimiento puede convertirse en un problema de aprendizaje. Hasta ahora, optimizar kernels era una mezcla de experiencia humana, herramientas de profiling, documentación, ensayo y error. El paper demuestra que un agente puede aprender ese proceso cuando se le da un entorno adecuado, una recompensa real y capacidad de iteración.
La lectura correcta no es “NVIDIA está acabada”. Es otra: una parte del software que protege su posición empieza a mostrar fisuras. La barrera sigue ahí, pero ya no parece tan humana, tan escasa ni tan inmóvil como antes.
El futuro de la IA no se decidirá solo en los modelos. Se decidirá también en los compiladores, los kernels, las librerías, los agentes de optimización y la capacidad de traducir una operación matemática en el uso más eficiente posible del silicio.
CUDA Agent no derriba el castillo de NVIDIA. Pero acaba de enseñar que algunas murallas pueden ser aprendidas por una IA.
Preguntas frecuentes
¿Qué es CUDA Agent?
CUDA Agent es un sistema de aprendizaje por refuerzo agéntico desarrollado por ByteDance Seed, Tsinghua AIR y SIA-Lab para generar y optimizar kernels CUDA de alto rendimiento mediante compilación, verificación y profiling real.
¿Qué resultados obtiene en KernelBench?
Según el paper, logra un 98,8 % de pass rate global, un 96,8 % de faster rate frente a torch.compile y un speed-up geométrico de 2,11 veces sobre torch.compile.
¿Significa esto que NVIDIA pierde su ventaja?
No de forma inmediata. CUDA Agent trabaja sobre CUDA y GPU NVIDIA. Pero sí muestra que parte de la experiencia que hace valioso el ecosistema CUDA puede automatizarse, lo que podría reducir en el futuro el coste de migrar a otros aceleradores.
¿Por qué es relevante para AMD, Google o chips personalizados?
Porque si este enfoque se adapta a ROCm, TPUs u otras arquitecturas, podría facilitar la generación automática de kernels optimizados fuera del ecosistema CUDA, reduciendo una de las barreras históricas frente a NVIDIA.












