NVIDIA rompe la “GPU todoterreno” y apuesta por chips especializados para la inferencia de IA

Durante años, el relato dominante en la industria de la Inteligencia Artificial se resumía en una palabra: HBM. La memoria de alto ancho de banda se convirtió en el símbolo del acelerador moderno, la pieza que justificaba precios elevados y racks cada vez más complejos. Por eso, el anuncio de Rubin CPX, un chip de NVIDIA que prescinde de HBM y se apoya en memoria GDDR7, ha levantado una ceja en media industria: no es un cambio de ficha menor, sino una señal de que la economía de la inferencia está mutando.

El mensaje implícito es claro: la inferencia ya no es “una cosa”, sino al menos dos. Y cuando los modelos pasan de responder chats cortos a procesar contextos gigantescos (repositorios enteros, documentos legales extensos, sesiones largas con agentes, vídeo y multimodalidad), se hace más evidente que intentar hacerlo todo con el mismo tipo de GPU empieza a generar ineficiencias caras.

Por qué el contexto gigante ha cambiado las reglas

En el día a día, se habla de inferencia como una sola fase, pero en la práctica se suele dividir en dos partes con necesidades muy distintas:

  • Prefill (procesado de contexto): el modelo “lee” el input y construye el estado interno (KV cache). Es una fase con mucho trabajo matemático paralelo.
  • Decode (generación): el modelo produce tokens uno a uno. Suele volverse más sensible al movimiento de datos y a la latencia.

Cuando los prompts eran relativamente pequeños, la diferencia no condicionaba la arquitectura global. Sin embargo, con ventanas de contexto crecientes y flujos de trabajo “agentic” (IA que encadena herramientas, navegación y pasos intermedios), el coste y la utilización real del hardware dejan de ser homogéneos. De ahí nace el interés por lo que muchos llaman “inferencia desagregada”: separar físicamente (o al menos lógicamente) el prefill del decode para asignar a cada fase el hardware que mejor encaje.

Este enfoque no sale de la nada. En los últimos años, investigaciones y prototipos han mostrado ganancias de eficiencia y estabilidad cuando se evita que trabajos “bursty” de contexto largo interfieran con la generación interactiva. La lectura que hoy hace el mercado es que esa idea ha pasado de paper a estrategia industrial.

Qué es Rubin CPX y por qué importa

Rubin CPX aparece precisamente como acelerador orientado al prefill, diseñado para mover el listón del coste por contexto procesado. La decisión de usar GDDR7 apunta a un objetivo doble: reducir coste y aliviar dependencias de suministros donde HBM y el packaging avanzado son cuellos de botella recurrentes.

En el ecosistema que NVIDIA describe para Vera Rubin, CPX se integra como pieza de un enfoque “por fases”: no se trata de sustituir a los aceleradores con HBM en todo, sino de complementarlos para que la plataforma complete el trabajo de contexto de manera más rentable y con mejor utilización. En paralelo, NVIDIA ha insistido en el potencial económico de esta línea, presentándola como clave para convertir inversión en infraestructura en capacidad real de “tokens” servidos, especialmente en escenarios de contexto largo.

El subtexto es delicado: si necesitas un chip distinto para el prefill, es porque la GPU unificada, tal y como se explotaba hasta ahora, ya no es óptima para todos los workloads.

El ingrediente que lo hace viable: software para mover el estado

El gran problema de separar prefill y decode no es filosófico, es mecánico: el estado (KV cache) debe existir donde se genera y donde se consume. Si trasladarlo cuesta demasiado tiempo, la supuesta eficiencia se evapora.

Aquí es donde entra el papel del software de orquestación. NVIDIA ha presentado Dynamo como capa para coordinar inferencia a gran escala, con énfasis en enrutar peticiones, gestionar estado y evitar recomputaciones innecesarias en conversaciones o sesiones largas. La idea es que la plataforma “sepa” dónde vive el estado de una interacción y lo reutilice, reduciendo el trabajo repetido y estabilizando latencias.

Dicho de otro modo: Rubin CPX no es solo un chip. Es una apuesta por reordenar el pipeline de inferencia y por convertir el “estado” en un recurso gestionable, no en un efecto colateral encerrado en una GPU concreta.

La presión competitiva: TPUs y aceleradores propios ganan peso

Este giro también se entiende mejor con el contexto de mercado. Los hiperescalares llevan tiempo buscando más control del coste por inferencia, y eso empuja alternativas:

  • Google continúa acelerando su hoja de ruta de TPU y ha presentado generaciones orientadas a mejorar coste total de propiedad en cargas de IA.
  • AWS ha llevado Trainium3 a disponibilidad general recientemente, reforzando la narrativa de infraestructura propia optimizada para IA y con un modelo económico más predecible para su plataforma.
  • Grandes compradores (incluida la industria del software y redes sociales) siguen explorando combinaciones de GPU de NVIDIA con silicio alternativo, precisamente para no depender de una sola curva de precios y suministro.

En ese tablero, Rubin CPX puede leerse como defensa y ataque a la vez: defensa, porque reconoce que la inferencia no se gana solo con “más HBM”; ataque, porque intenta que esa especialización ocurra dentro del stack de NVIDIA, no fuera.

Qué cambia para empresas y desarrolladores en 2026

Si la estrategia cuaja, lo razonable es esperar una consecuencia práctica: más segmentación de instancias y perfiles de infraestructura. Igual que hoy se elige entre instancias optimizadas para CPU, memoria o GPU, mañana podría ser normal elegir entre infraestructura optimizada para:

  • ingestión masiva de contexto,
  • generación interactiva de baja latencia,
  • y pipelines mixtos con agentes y multimodalidad.

Para el usuario final, el beneficio se traduciría en algo simple: contextos más largos a un coste menos prohibitivo y con menos degradación de experiencia cuando el sistema está bajo picos. Para el operador de plataforma, el reto será otro: planificación, observabilidad y redes. Separar fases multiplica decisiones de scheduling y hace que la red y el movimiento de estado pasen a ser parte central del rendimiento.

En resumen: lo que se está decidiendo no es un modelo concreto, sino cómo se imprime dinero con la inferencia. Y ahí, el detalle técnico se vuelve estrategia empresarial.


Preguntas frecuentes

¿Qué ventaja tiene separar “prefill” y “decode” en la inferencia de un LLM?

Permite asignar hardware distinto a tareas con perfiles diferentes: procesar contexto largo y generar tokens tienen cuellos de botella distintos. Al separarlos, se mejora utilización del hardware y se reducen interferencias de latencia en producción.

¿Rubin CPX sustituye a las GPUs con HBM para IA?

No necesariamente. La tendencia apunta a un enfoque complementario: chips más “baratos” y eficientes para prefill y aceleradores con HBM para generación y otros escenarios donde el ancho de banda extremo sigue siendo clave.

¿Qué papel juega NVIDIA Dynamo en esta arquitectura?

Actúa como capa de orquestación para servir inferencia a gran escala, con gestión de estado y enrutamiento. En arquitecturas desagregadas, coordinar dónde vive el KV cache y cómo se reutiliza puede marcar la diferencia entre ahorrar o empeorar latencia.

¿Qué implicaciones tiene esto para el coste de ejecutar agentes de IA con contexto largo?

Si se consolida la especialización, el coste por petición con contexto grande podría bajar y volverse más estable, porque el sistema evita usar hardware sobredimensionado en fases donde no aporta valor proporcional.

Fuente: revista cloud

Scroll al inicio