NVIDIA lanza Dynamo, su software clave para abaratar la inferencia de IA

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

NVIDIA ha aprovechado GTC 2026 para presentar uno de esos movimientos que ayudan a entender hacia dónde va realmente el negocio de la inteligencia artificial. La compañía ha anunciado Dynamo 1.0, un software open source pensado para gestionar inferencia a gran escala y coordinar GPUs, memoria y almacenamiento dentro de grandes clústeres. La empresa lo define como un “sistema operativo” para fábricas de IA, aunque en la práctica se parece más a una capa de orquestación distribuida para servir modelos generativos y agentes con menos latencia, mejor uso de memoria y mayor rendimiento.

La noticia es relevante porque la conversación del mercado ya no gira solo en torno a entrenar modelos cada vez más grandes. El gran reto ahora está en la inferencia: cómo responder millones de consultas, ejecutar agentes complejos, manejar ventanas de contexto enormes y hacerlo sin disparar el coste por token. NVIDIA quiere ocupar también esa capa del stack, no solo con chips como Blackwell, sino con software que haga más rentable desplegarlos. Dynamo 1.0 ya figura además como versión estable en GitHub, donde se presenta como la primera gran entrega de una plataforma distribuida de inferencia lista para producción.

El nuevo cuello de botella de la IA ya no está solo en el hardware

Según NVIDIA, Dynamo 1.0 está diseñado para repartir mejor el trabajo entre GPUs, mover datos entre memoria cara y almacenamiento más barato y decidir qué petición debe ir a qué recurso en función de la carga, la latencia y el estado de la caché. Dicho de otro modo: intenta reducir trabajo duplicado, evitar cuellos de botella y sacar más partido al hardware ya instalado. La compañía sostiene que, en benchmarks recientes, Dynamo ha elevado hasta 7 veces el rendimiento de inferencia sobre GPUs Blackwell. Ese dato existe, pero conviene matizarlo: procede de pruebas citadas por NVIDIA apoyadas en resultados de SemiAnalysis InferenceX y depende del tipo de modelo, configuración y arquitectura utilizada.

Ese matiz importa porque el anuncio no significa que cualquier despliegue vaya a multiplicar automáticamente por 7 su rendimiento. Lo que sí deja claro es una tendencia más amplia: el valor económico de la IA se está desplazando hacia el software que optimiza inferencia en producción. En el blog técnico publicado por NVIDIA el mismo día del anuncio, la empresa explica que Dynamo está pensado para escenarios multinodo, modelos razonadores, cargas agénticas y despliegues multimodales, es decir, justo el tipo de casos de uso que están tensionando más los centros de datos actuales.

De vLLM y SGLang a Kubernetes: NVIDIA quiere estar en todas las capas

Uno de los elementos más importantes del lanzamiento es su encaje con el ecosistema open source existente. NVIDIA asegura que Dynamo y sus optimizaciones de TensorRT-LLM se integran de forma nativa con marcos populares como LangChain, llm-d, LMCache, SGLang y vLLM. Además, varios de sus componentes internos —como KVBM para gestión de memoria, NIXL para transferencias rápidas entre GPUs y Grove para escalar en Kubernetes— también se ofrecen como módulos independientes. Ese enfoque busca que Dynamo no parezca una isla cerrada, sino una base sobre la que otros puedan construir.

La estrategia tiene lógica. En inferencia, NVIDIA ya no compite solo con otros fabricantes de chips, sino también con runtimes, motores y capas de serving que intentan convertirse en estándar de facto. Por eso le interesa integrarse con proyectos que ya tienen adopción real entre desarrolladores. La propia documentación técnica de LangChain incluye ya ChatNVIDIADynamo, una integración pensada para enviar pistas sobre caché, prioridad y enrutado al planificador de Dynamo. No es una simple compatibilidad superficial: es una señal de que NVIDIA quiere que su software sea parte de la lógica operativa diaria de quienes construyen aplicaciones con LLM.

La inferencia empresarial ya no se vende solo como potencia, sino como economía

El anuncio también deja ver otra realidad del mercado: el software de inferencia se está convirtiendo en una palanca directa de rentabilidad. NVIDIA habla abiertamente de reducir el coste por token y aumentar la oportunidad de ingresos para millones de GPUs. Es un lenguaje cada vez más habitual porque el negocio ya no se mide solo en FLOPS, sino en cuántas peticiones se pueden servir, con qué latencia y a qué coste operativo. Si una mejora en caché, routing o arranque de réplicas consigue ahorrar memoria o acelerar la puesta en producción, el impacto económico puede ser enorme en clústeres de gran tamaño.

En esa línea, el blog técnico de NVIDIA destaca mejoras que van más allá del titular de GTC: optimizaciones para agentes con prioridad y “cache pinning”, aceleración de cargas multimodales con caché de embeddings, soporte nativo para generación de vídeo, y una función llamada ModelExpress que, según la compañía, puede acelerar hasta 7 veces el arranque de ciertas réplicas de inferencia para modelos grandes mediante restauración desde checkpoint y streaming de pesos por NIXL y NVLink. Todo ello refuerza la idea de que Dynamo no quiere ser solo un scheduler, sino una plataforma completa de serving distribuido.

Nube, empresas y adopción: mucho apoyo, pero con distinto nivel de compromiso

NVIDIA acompaña el lanzamiento con una larga lista de socios y clientes. Entre ellos cita a grandes proveedores cloud como AWS, Microsoft Azure, Google Cloud y Oracle Cloud Infrastructure; a socios como CoreWeave, Alibaba Cloud, Together AI y Nebius; y a empresas de producto o consumo como Cursor, Perplexity, PayPal o Pinterest. Ahora bien, conviene distinguir entre adopción plena, integración técnica, validación conjunta o soporte dentro de entornos Kubernetes gestionados. En varios casos lo que está públicamente confirmado es la integración o guía de despliegue, no necesariamente que Dynamo sea el motor exclusivo o universal de su inferencia.

Aun con esa cautela, el movimiento es importante. Google Cloud ya ha hablado esta semana de su pila “co-engineered” con NVIDIA y menciona expresamente Dynamo con GKE. Microsoft, por su parte, ya había publicado contenido técnico sobre despliegues multinodo con Dynamo en AKS. Eso da cierta solidez a la idea de que el software no nace en el vacío, sino con trabajo previo en el ecosistema de nube y contenedores.

El fondo de la noticia, por tanto, va más allá de un nuevo producto open source. NVIDIA está intentando consolidar una posición dominante también en la capa que decide cómo se sirve la inteligencia artificial dentro del centro de datos. Si lo consigue, su ventaja competitiva dejará de apoyarse solo en la GPU y se extenderá al software que convierte esa GPU en un negocio más rentable. En un momento en el que la inferencia agéntica, multimodal y persistente empieza a pasar del laboratorio a producción, Dynamo es una pieza que explica bastante bien por qué la guerra de la IA ya no se libra solo en el chip.

Preguntas frecuentes

¿Qué es NVIDIA Dynamo y para qué sirve?

NVIDIA Dynamo es una plataforma open source de inferencia distribuida pensada para coordinar GPUs, memoria, caché y almacenamiento en despliegues de IA a gran escala. Su objetivo es mejorar el rendimiento, reducir latencia y abaratar el coste por token en modelos generativos y agentes.

¿Dynamo sustituye a Linux o a un sistema operativo tradicional?

No. Cuando NVIDIA lo llama “sistema operativo para fábricas de IA” lo hace en sentido funcional, como una capa de orquestación para servir inferencia dentro de clústeres. No reemplaza al sistema operativo del servidor, sino que se sitúa por encima para gestionar recursos de IA.

¿Con qué frameworks y herramientas es compatible NVIDIA Dynamo?

NVIDIA afirma que Dynamo se integra con TensorRT-LLM y con proyectos open source como LangChain, llm-d, LMCache, SGLang y vLLM. También expone módulos como NIXL, KVBM y Grove para integraciones más específicas.

¿Está ya disponible NVIDIA Dynamo 1.0?

Sí. NVIDIA anunció su disponibilidad para desarrolladores el 16 de marzo de 2026 y el repositorio público en GitHub muestra ya la release v1.0.0 como primera gran versión estable orientada a producción.

vía: Dynamo