NVIDIA ha desvelado Rubin CPX, una nueva clase de GPU diseñada específicamente para procesamiento de contexto masivo. El anuncio, realizado en el AI Infra Summit, apunta directamente a dos de los frentes más exigentes de la IA actual: los asistentes de programación capaces de razonar sobre bases de código completas —con ventanas de contexto del orden del millón de tokens— y la generación/entendimiento de vídeo de larga duración. La compañía sostiene que Rubin CPX inaugura una categoría de “procesadores de contexto” dentro del ecosistema CUDA, con una arquitectura optimizada para atención larga, memoria de alta velocidad e integración de códecs de vídeo en el propio chip.
La nueva GPU se integra en la plataforma NVIDIA Vera Rubin NVL144 CPX, un sistema MGX que combina Rubin CPX con las CPU NVIDIA Vera y los GPU Rubin de propósito general. En un solo rack, esta configuración alcanza 8 exaflops de cómputo de IA, 100 TB de memoria rápida y hasta 1,7 petabytes por segundo de ancho de banda de memoria. Según NVIDIA, el salto de prestaciones frente a los sistemas NVIDIA GB300 NVL72 es de 7,5 veces en rendimiento de IA. Para clientes que quieran reutilizar infraestructuras NVL144 existentes, se ofrecerá también una bandeja de cómputo Rubin CPX dedicada.
“La plataforma Vera Rubin supone otro salto en la frontera del cómputo de IA: introduce tanto la siguiente generación de GPU Rubin como una nueva categoría de procesadores, los CPX”, afirmó Jensen Huang, fundador y consejero delegado de NVIDIA. “Así como RTX revolucionó los gráficos y la IA física, Rubin CPX es la primera GPU CUDA creada para la IA de contexto masivo, en la que los modelos razonan a la vez con millones de tokens”.
Un procesador “de contexto” para la era de los millones de tokens
El crecimiento de las ventanas de contexto en modelos fundacionales está redefiniendo la arquitectura de hardware. Los asistentes de código que hasta ahora generaban fragmentos puntuales comienzan a comprender, optimizar y orquestar proyectos de software de gran escala, repositorios completos y años de histórico de tickets o documentación. En paralelo, el vídeo se ha convertido en un flujo multimodal extremadamente demandante: una hora de contenido puede requerir hasta 1 millón de tokens para ser procesada por un modelo, un volumen que desborda la memoria y el rendimiento de las GPU tradicionales en tareas de inferencia.
Ahí es donde Rubin CPX busca diferenciarse. La tarjeta integra aceleración de atención de largo alcance y códecs de vídeo junto a las unidades de cómputo, de forma que el decodificado/encodificado y el razonamiento sobre contextos prolongados viajen en el mismo silicio, reduciendo cuellos de botella y latencias. La arquitectura Rubin utilizada en CPX apuesta por un diseño monolítico orientado a la eficiencia energética y a la densidad de cómputo para inferencia, con recursos NVFP4 como formato de precisión preferente para maximizar rendimiento y coste.
Cifras clave de Rubin CPX
- Hasta 30 petaflops de cómputo con precisión NVFP4 por GPU.
- 128 GB de memoria GDDR7 “cost-efficient”, pensada para cargas de contexto largo.
- Atención 3 veces más rápida que en los sistemas NVIDIA GB300 NVL72, lo que permite secuencias mucho más extensas sin penalización de velocidad.
- Integración de códecs de vídeo y aceleradores de inferencia de contexto largo en el propio chip.
- Compatibilidad con NVIDIA Quantum-X800 InfiniBand para escalado HPC o con NVIDIA Spectrum-X™ Ethernet (Spectrum-XGS y ConnectX-9 SuperNICs™) para centros de datos basados en Ethernet.
En conjunto, Vera Rubin NVL144 CPX comprime en un solo rack 8 exaflops de IA, 100 TB de memoria de alta velocidad y 1,7 PB/s de ancho de banda, una densidad que busca abaratar el coste por token y acelerar la inferencia en despliegues de gran escala.
De la demostración al negocio: el cálculo de “ingresos por token”
NVIDIA ha acompañado el lanzamiento con un mensaje abiertamente orientado al retorno económico: afirma que la plataforma Vera Rubin NVL144 CPX permite a las compañías monetizar a una escala sin precedentes, con 5.000 millones de dólares en ingresos por tokens por cada 100 millones de dólares invertidos en infraestructura. La cifra, presentada como un indicador de potencial, liga la densidad de cómputo y la memoria disponible con la capacidad de servir contextos largos —desde asistentes de código que abarcan repositorios enteros hasta generación de vídeo de alta calidad— y su traducción en volúmenes de llamadas facturables.
Aunque este cálculo dependerá del precio de mercado del token, del mix de modelos y del perfil de cargas, la compañía sitúa a Rubin CPX como un acelerador de ingresos para proveedores de plataformas, hyperscalers y empresas que despliegan agentes y copilotos con necesidades de contexto de seis o siete cifras.
Primeros adoptantes: del código al cine generativo
Varios innovadores en IA han adelantado qué esperan de Rubin CPX:
- Cursor (editor de código con IA) prevé “generación de código ultrarrápida” y mejoras de productividad al trabajar con agentes que entienden proyectos completos y colaboran en tiempo real con el desarrollador.
- Runway (IA generativa de vídeo) apunta a formatos más largos, flujos agentizados y mayor control creativo. La empresa ve en CPX “un salto mayor de rendimiento” para cargas de vídeo cinematográfico y efectos.
- Magic (modelos base para agentes de ingeniería de software) destaca que con 100 millones de tokens sus modelos pueden ver una base de código completa, años de historial de interacción, documentación y librerías, permitiendo “entrenar al agente en prueba” mediante conversación y acceso al entorno del usuario.
El común denominador es el cambio de escala: de tareas locales y contextos de miles de tokens a sistemas que razonan con decenas o centenares de millones de unidades de información en una sola pasada.
Apilado de software: de Dynamo a Nemotron y NIM
Rubin CPX llega arropado por toda la pila de software de NVIDIA:
- NVIDIA Dynamo: plataforma para escalar la inferencia con mayor rendimiento, menor latencia y coste por respuesta más bajo.
- Modelos NVIDIA Nemotron™: familia multimodal centrada en razonamiento de última generación para agentes empresariales.
- NVIDIA AI Enterprise: distribución de software de producción con microservicios NIM™, bibliotecas y marcos de IA para desplegar en nubes aceleradas por NVIDIA, centros de datos y workstations.
- Ecosistema CUDA-X™: una comunidad de más de 6 millones de desarrolladores y casi 6.000 aplicaciones CUDA, que facilita puertos y optimizaciones sobre las nuevas capacidades de atención larga.
El objetivo es claro: que la transición a contextos masivos no sea un proyecto ad hoc, sino una evolución natural para quienes ya trabajan sobre la plataforma NVIDIA.
Disponibilidad y hoja de ruta
NVIDIA sitúa la disponibilidad de Rubin CPX a finales de 2026. El plazo deja margen para que hiperescaladores, ISV y grandes corporaciones ajusten sus planes de capacidad, modelos de negocio por token y flujos de trabajo de agentes y vídeo de larga duración. La compañía también ofrecerá bandejas CPX para sistemas Vera Rubin NVL144 existentes, pensando en clientes que quieran aprovechar su inversión sin sustituir completamente el chasis.
Qué cambia con Rubin CPX (y qué no)
- Cambia la unidad de valor: el foco se desplaza del “tokens por segundo” a la capacidad de sostener ventanas de seis o siete cifras sin colapsar la latencia ni comprometer la calidad.
- Cambia la economía del despliegue: más memoria por rack y atención acelerada elevan el techo de monetización por servidor en aplicaciones de código y vídeo.
- No cambia la dependencia del software: la promesa de millares de tokens útiles exige orquestación de modelos, rutado inteligente, compresión de contexto, RAG y seguridad bien resuelta.
- No cambia la necesidad de eficiencia: los contextos gigantes multiplican el consumo; el reto pasa por reducir coste por token y aprovechar la memoria y el ancho de banda con cachés, kv-offloading y planificadores afinados.
Un movimiento con dos mensajes
El lanzamiento envía dos señales al mercado. La primera, tecnológica: el futuro de la inferencia es contextual y obliga a repensar el equilibrio entre cómputo, memoria y atención. La segunda, económica: la monetización a gran escala —medida en ingresos por token— se decide en la latencia y en el tamaño del contexto. Quien sirva vídeo y agentes de código con contextos de millones y tiempos de respuesta competitivos se llevará una porción mayor del mercado.
Con Rubin CPX, NVIDIA busca quedarse en el centro de esa ecuación.
Preguntas frecuentes (FAQ)
¿Qué es exactamente NVIDIA Rubin CPX y en qué se diferencia de un GPU “convencional”?
Rubin CPX es una GPU CUDA especializada en inferencia de contexto masivo. A diferencia de un GPU generalista, integra aceleración de atención larga y códecs de vídeo en el propio chip, y está optimizada para ventanas de hasta millones de tokens en tareas como asistentes de programación y vídeo generativo/analítico.
¿Cuáles son las especificaciones destacadas de Rubin CPX?
Ofrece hasta 30 petaflops en NVFP4, 128 GB de GDDR7, atención 3 veces más rápida que los sistemas GB300 NVL72, e integración de códecs de vídeo. En la plataforma Vera Rubin NVL144 CPX, un solo rack reúne 8 exaflops, 100 TB de memoria rápida y 1,7 PB/s de ancho de banda.
¿Qué beneficios prácticos aporta para IA generativa de vídeo y copilotos de código?
Permite procesar horas de vídeo y repositorios de software completos en una sola pasada, sosteniendo ventanas de contexto de seis o siete cifras sin que caiga el rendimiento. Esto acorta la latencia, aumenta la precisión contextual y eleva el techo de monetización por token.
¿Cuándo estará disponible Rubin CPX y con qué software funcionará?
NVIDIA prevé su disponibilidad a finales de 2026. Estará soportado por la pila NVIDIA AI (Dynamo, Nemotron, AI Enterprise, NIM), y se integrará con Quantum-X800 InfiniBand o Spectrum-X Ethernet para escalar en centros de datos.
¿Qué negocios pueden aprovechar mejor esta GPU de contexto masivo?
Plataformas de agentes y copilotos con ventanas de >100 millones de tokens, servicios de vídeo generativo/análisis de larga duración, y proveedores cloud que facturan por token servido y buscan reducir coste/latencia en cargas multimodales de gran contexto.