NVIDIA ha presentado la familia Nemotron 3, una nueva línea de modelos abiertos (Nano, Super y Ultra) diseñada para acelerar el salto de los chatbots “de una sola pieza” hacia sistemas de IA agéntica donde varios agentes colaboran, se reparten tareas y ejecutan flujos complejos con costes controlados. La compañía coloca el foco en un punto que a menudo se pasa por alto cuando se habla de IA: en un entorno multi-agente, no basta con “razonar bien”, también hay que razonar barato, mantener el contexto estable y reducir el overhead de coordinación.
La base técnica de la propuesta es una arquitectura Mixture-of-Experts (MoE) híbrida (a la que NVIDIA se refiere como “hybrid latent MoE”), pensada para activar solo una parte del modelo por token y así mejorar eficiencia. En el anuncio, Jensen Huang enmarca el movimiento como un paso para convertir IA avanzada en una plataforma más accesible y transparente para desarrolladores y organizaciones.
Tres tamaños: Nano para desplegar ya, Super y Ultra para 2026
Nemotron 3 se divide en tres escalones:
- Nemotron 3 Nano: un modelo de 30.000 millones de parámetros que, según NVIDIA, activa hasta 3.000 millones por token para tareas “dirigidas” y de bajo coste.
- Nemotron 3 Super: orientado a razonamiento de mayor precisión y escenarios con muchos agentes (≈ 100.000 millones de parámetros; hasta 10.000 millones activos por token).
- Nemotron 3 Ultra: pensado como motor de razonamiento para flujos complejos (≈ 500.000 millones de parámetros; hasta 50.000 millones activos por token).
La compañía afirma que Nano está disponible desde ya, mientras que Super y Ultra se esperan para el primer semestre de 2026.
Lo importante: rendimiento por euro, contexto masivo y menos “tokens de pensar”
El mensaje clave de Nemotron 3 Nano es la eficiencia: NVIDIA asegura que ofrece hasta 4× más throughput que Nemotron 2 Nano y que reduce hasta un 60 % los “reasoning tokens” (tokens extra que el modelo consume para llegar a una respuesta), un detalle especialmente relevante cuando se ejecutan agentes que iteran, prueban y corrigen en bucle.
A esto se suma un reclamo muy concreto para flujos largos: ventana de contexto de 1.000.000 de tokens en Nano, orientada a tareas multietapa (resúmenes extensos, depuración, recuperación de información, coordinación de agentes, etc.).
No solo modelos: datasets, librerías de RL y “seguridad agéntica”
NVIDIA acompaña el lanzamiento con un paquete que apunta al “cómo se fabrica” un agente útil: anuncia tres billones (10¹²) de tokens en conjuntos de datos (pretraining, post-training y refuerzo), además de herramientas abiertas para entrenamiento y evaluación. Entre ellas destacan NeMo Gym y NeMo RL (entornos y librerías para refuerzo) y NeMo Evaluator (validación de seguridad y rendimiento), junto con un Nemotron Agentic Safety Dataset orientado a evaluar sistemas de agentes con telemetría del mundo real.
El subtexto es claro: si el mercado se está moviendo hacia agentes especializados, el “stack” abierto ya no puede limitarse a publicar pesos; tiene que incluir datos, entornos de entrenamiento y herramientas de verificación.
Ecosistema: desde local (LM Studio/llama.cpp) hasta proveedores de inferencia y NIM
En el apartado práctico, NVIDIA destaca compatibilidad con herramientas habituales del mundo “local-first” y de serving: LM Studio, llama.cpp, SGLang y vLLM.
Para despliegue empresarial, Nemotron 3 Nano también se ofrece como NVIDIA NIM microservice para ejecutar en infraestructura acelerada por NVIDIA con foco en control y privacidad.
En distribución, la compañía menciona disponibilidad de Nano en Hugging Face y a través de proveedores de inferencia como Baseten, DeepInfra, Fireworks, FriendliAI, OpenRouter y Together AI, además de una lista amplia de integraciones y soporte en plataformas.
Lectura para un medio tech: por qué este anuncio importa (y qué no promete)
Nemotron 3 no es “otro LLM más”, sino un movimiento para fijar una idea: los agentes se ganan en eficiencia sistémica, no solo en benchmarks de conversación. Si el futuro inmediato es un “router” que decide qué tarea va a un modelo tope de gama y cuál va a un open model afinado, entonces el valor está en:
- Coste de inferencia bajo (menos tokens, más throughput).
- Contexto largo realista para trabajo multietapa.
- Herramientas abiertas para especializar sin reinventar la rueda.
- Operativa multi-agente con menos fricción.
A la vez, conviene leer la letra pequeña: Super y Ultra aún no están disponibles (se prometen para 2026), y el rendimiento final dependerá del serving, del routing y de cómo cada equipo “empaquete” su agente con datos propios, evaluaciones y guardarraíles.
Preguntas frecuentes
¿Qué es Nemotron 3 Nano y para qué tipo de proyectos está pensado?
Es el modelo abierto “de entrada” de la familia (30.000 millones de parámetros), orientado a tareas como depuración, resumen, asistentes y recuperación de información con costes de inferencia contenidos.
¿Qué aporta una ventana de contexto de 1.000.000 de tokens en un sistema de agentes?
Permite que un agente mantenga mucha más información “en memoria de trabajo” (documentación, logs, conversaciones largas, evidencias) sin recortes agresivos, algo clave en tareas multietapa.
¿Qué significa que sea un MoE “híbrido” y que active solo parte del modelo?
Que no se usan todos los parámetros en cada token: se activan “expertos” específicos. La idea es mejorar rendimiento y eficiencia manteniendo capacidad para tareas variadas.
¿Qué herramientas open source ha publicado NVIDIA junto a Nemotron 3?
Además de modelos, NVIDIA habla de datasets a gran escala y librerías como NeMo Gym y NeMo RL, junto con NeMo Evaluator y un dataset de seguridad para sistemas agénticos, para entrenar, ajustar y evaluar agentes especializados.
vía: nvidianews.nvidia



