NVIDIA presenta Groq 3 LPX para acelerar la inferencia de baja latencia

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

NVIDIA ha añadido una nueva pieza a su plataforma Vera Rubin con la presentación de NVIDIA Groq 3 LPX, un acelerador rack-scale orientado a inferencia de baja latencia y grandes ventanas de contexto para sistemas agénticos. La compañía lo describe como un complemento de Vera Rubin NVL72, pensado no para sustituir a sus GPUs generalistas, sino para trabajar junto a ellas en una arquitectura heterogénea donde la rapidez por token pasa a ser tan importante como el rendimiento bruto por rack.

Según NVIDIA, el nuevo sistema agrupa 256 aceleradores Groq 3 LPU y ofrece 315 PFLOPS de inferencia FP8, 128 GB de SRAM total, 40 PB/s de ancho de banda de SRAM on-chip y 640 TB/s de ancho de banda scale-up. A nivel de bandeja, cada tray 1U integra ocho LPUs, CPU host, lógica de expansión de fabric y un diseño refrigerado por líquido sin cableado interno visible, con la idea de simplificar el despliegue a escala de rack.

Lo relevante no es solo la cifra, sino el tipo de problema que intenta resolver. NVIDIA sostiene que la IA agéntica y los flujos interactivos están llevando la inferencia a un terreno distinto al del entrenamiento clásico o al serving puramente masivo: más sesiones concurrentes, más generación secuencial, más sensibilidad a la latencia y más presión para mantener estable el tiempo al primer token y la velocidad por usuario. En ese contexto, Groq 3 LPX se presenta como una vía específica para acelerar la parte más sensible del bucle de decode, mientras Rubin sigue actuando como motor flexible y de propósito general para prefill, atención y serving de alto throughput.

Una arquitectura pensada para separar prefill y decode

NVIDIA describe esta combinación como una arquitectura heterogénea de inferencia. En ese modelo, Vera Rubin NVL72 se ocupa del trabajo que más se beneficia de gran capacidad de memoria y throughput, especialmente el prefill y la decode attention sobre contextos largos. LPX, por su parte, acelera fases más sensibles a la latencia dentro del decode, como la ejecución de FFN y de expertos MoE. La empresa enmarca esta separación dentro de lo que llama attention–FFN disaggregation (AFD), una desagregación de la fase de decode para que cada motor procese la parte que mejor encaja con su perfil.

El procesador que está en el centro del sistema es el Groq 3 LPU, al que NVIDIA llama ya el “séptimo chip” de la plataforma Vera Rubin. Su diseño prioriza ejecución determinista, gran ancho de banda de SRAM on-chip y movimiento explícito de datos bajo control del compilador, en lugar de depender de heurísticas más dinámicas de caché o scheduling. Cada LPU integra 500 MB de SRAM on-chip, 150 TB/s de ancho de banda de memoria interna y enlaces chip-to-chip que, según NVIDIA, permiten una comunicación más predecible al escalar la inferencia distribuida.

La compañía también sostiene que esta aproximación ayuda especialmente cuando los lotes son pequeños y la experiencia del usuario depende más de la estabilidad de la respuesta que del throughput agregado. Es decir, en asistentes de código, agentes con tool use, asistentes de voz, traducción en tiempo real o sistemas multiagente donde el retardo se va acumulando paso a paso. Esa es, precisamente, la tesis central del anuncio: la IA interactiva necesita otra clase de infraestructura además de la GPU tradicional.

Dynamo y decodificación especulativa

Para que esta heterogeneidad no se quede en una idea teórica, NVIDIA apoya el despliegue en NVIDIA Dynamo, su capa de orquestación para inferencia distribuida. La empresa explica que Dynamo clasifica peticiones, enruta el prefill a los workers con GPU, coordina el bucle AFD durante el decode y mueve activaciones intermedias entre Rubin y LPX con el objetivo de mantener baja la latencia de cola incluso bajo tráfico variable. NVIDIA presentó Dynamo 1.0 esta misma semana como software de producción para inferencia multinodo.

Otro uso que NVIDIA destaca para LPX es la decodificación especulativa. En ese esquema, LPX actuaría como motor para generar rápidamente tokens candidatos con un modelo draft, mientras las GPUs Rubin verificarían y aceptarían esos tokens con el modelo principal. La compañía plantea que esa separación puede mejorar la latencia sin perder la eficiencia de la verificación en GPU, aunque por ahora lo presenta como parte de la arquitectura y no como un benchmark independiente publicado por terceros.

Las cifras más llamativas del anuncio también deben leerse como estimaciones del fabricante. NVIDIA asegura que la combinación de Vera Rubin NVL72 + LPX puede ofrecer hasta 35 veces más throughput de inferencia por megavatio y hasta 10 veces más oportunidad de ingresos para modelos del orden del billón de parámetros, frente a generaciones anteriores como GB200 NVL72, en determinados escenarios de IA interactiva premium. Son promesas muy ambiciosas y, como suele ocurrir en este tipo de lanzamientos, habrá que ver cómo se traducen en cargas reales y comparativas independientes.

En cualquier caso, el movimiento deja clara una dirección de fondo: NVIDIA quiere que la próxima generación de fábricas de IA no se mida solo por cuántos tokens produce, sino por cómo combina throughput, latencia y valor económico por rack. Y para ese objetivo, Groq 3 LPX aparece como una nueva clase de acelerador especializado dentro del universo Vera Rubin.

Preguntas frecuentes

¿Qué es NVIDIA Groq 3 LPX?
Es un nuevo acelerador rack-scale de inferencia presentado por NVIDIA para la plataforma Vera Rubin, orientado a cargas de baja latencia, grandes contextos y sistemas agénticos.

¿Qué papel tendrá frente a Vera Rubin NVL72?
Según NVIDIA, Rubin seguirá siendo el motor generalista para prefill, decode attention e inferencia de alto throughput, mientras LPX acelerará partes más sensibles a la latencia dentro del decode, como FFN y MoE.

¿Qué especificaciones ha anunciado NVIDIA para LPX?
La compañía habla de 256 LPUs, 315 PFLOPS FP8, 128 GB de SRAM total, 40 PB/s de ancho de banda de SRAM on-chip y 640 TB/s de scale-up bandwidth a nivel de sistema.

¿Qué software coordina esta arquitectura heterogénea?
NVIDIA sitúa a Dynamo como la capa de orquestación que enruta el prefill, coordina el decode desagregado y ayuda a mantener baja la latencia de cola bajo cargas variables.

vía: developer.nvidia