Google DeepMind y NVIDIA aceleran la IA local con DiffusionGemma

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Google DeepMind ha presentado DiffusionGemma, un modelo experimental abierto diseñado para generar texto de una forma distinta a la mayoría de los grandes modelos de lenguaje actuales. En lugar de producir una palabra o token tras otro, como hacen los modelos autoregresivos tradicionales, DiffusionGemma trabaja en bloques y puede refinar hasta 256 tokens en paralelo. NVIDIA ha optimizado el modelo para ejecutarlo con más velocidad en GPUs GeForce RTX, estaciones RTX PRO y sistemas DGX Spark, desde PCs locales hasta entornos profesionales y cloud.

El anuncio apunta a una tendencia cada vez más visible en inteligencia artificial: llevar más capacidad de inferencia al dispositivo local. No todo tiene que ejecutarse en grandes centros de datos ni depender de una API con coste por token. Para desarrolladores, investigadores y usuarios avanzados, un modelo abierto, rápido y capaz de funcionar en hardware propio puede abrir una vía más flexible para asistentes personales, prototipos, agentes locales y flujos de trabajo de baja latencia.

Un modelo que genera texto por bloques

La mayoría de los modelos de lenguaje más utilizados generan texto de forma secuencial. Predicen un token, después otro, y así hasta completar la respuesta. Ese proceso es una de las razones por las que muchas herramientas de IA parecen “escribir” en pantalla poco a poco. Funciona bien, pero tiene una limitación clara: cada paso depende del anterior y eso introduce latencia.

DiffusionGemma adopta otro enfoque. Inspirado en los modelos de difusión usados para generar imágenes, parte de una representación ruidosa y la va refinando hasta producir un bloque coherente de texto. En cada paso puede eliminar ruido y mejorar hasta 256 tokens en paralelo, en lugar de esperar a producir un único token antes de pasar al siguiente.

La diferencia técnica es relevante porque cambia el tipo de carga de trabajo. La generación token a token suele estar limitada por el ancho de banda de memoria: el modelo pasa buena parte del tiempo moviendo datos. La generación por bloques aprovecha mejor el cálculo paralelo, una zona donde las GPUs modernas destacan. Según NVIDIA, este diseño encaja especialmente bien con sus Tensor Cores y con el ecosistema CUDA.

DiffusionGemma se basa en Gemma 4, una arquitectura mixture-of-experts de 26.000 millones de parámetros que activa 3.800 millones por paso. Esto permite combinar capacidad con eficiencia, ya que no todo el modelo se activa en cada operación. Google DeepMind añade sobre esa base una cabeza de difusión para generar texto de forma paralela.

Característica	DiffusionGemma
Arquitectura base	Gemma 4
Tamaño del modelo	26.000 millones de parámetros
Parámetros activos por paso	3.800 millones
Método de generación	Difusión de texto por bloques
Tokens refinados por paso	Hasta 256
Licencia	Apache 2.0
Ejecución	Local en RTX y DGX Spark, también cloud
Soporte inicial	Hugging Face Transformers, vLLM y Unsloth

Más velocidad para IA local

NVIDIA asegura que DiffusionGemma puede alcanzar hasta 1.000 tokens por segundo en una NVIDIA H100 Tensor Core GPU. En DGX Spark, el rendimiento anunciado es de 150 tokens por segundo, mientras que en DGX Station puede llegar hasta 800 tokens por segundo para generación de baja latencia y bucles agénticos. La compañía habla de una mejora de hasta cuatro veces frente a un modelo autoregresivo equivalente en escenarios de un solo usuario.

Estas cifras deben interpretarse dentro del contexto del propio anuncio y de las condiciones concretas de prueba, pero muestran por dónde va la optimización. DiffusionGemma está pensado para cargas donde un usuario necesita respuestas muy rápidas, iteración continua y capacidad de trabajar sin depender siempre de servicios remotos.

Los casos de uso más evidentes están en chat interactivo, asistentes en el dispositivo, agentes que planifican y ejecutan pasos, entornos de desarrollo, investigación, escritura asistida y prototipos de aplicaciones. En estos escenarios, la latencia importa mucho. Un modelo que responde con rapidez permite iterar más, corregir antes y mantener la sensación de conversación o flujo de trabajo continuo.

Plataforma NVIDIA	Rendimiento o enfoque anunciado
NVIDIA H100 Tensor Core GPU	Hasta 1.000 tokens por segundo
NVIDIA DGX Spark	150 tokens por segundo
NVIDIA DGX Station	Hasta 800 tokens por segundo
NVIDIA RTX PRO 6000	Generación local de baja latencia para flujos profesionales
GeForce RTX	Ejecución local, con soporte de llama.cpp previsto próximamente
RTX 5090	Ejecución directa mediante Hugging Face Transformers

El enfoque local también cambia la economía de uso. Ejecutar un modelo en hardware propio elimina el coste por token de una API externa, aunque no elimina el coste de la máquina, la electricidad o el mantenimiento. Para usuarios ocasionales puede no compensar. Para desarrolladores, laboratorios, empresas o equipos que prueban muchos flujos de IA, tener inferencia local rápida puede ser una ventaja clara.

El papel de NVIDIA: hardware y software desde el primer día

La optimización de NVIDIA no se limita a decir que el modelo funciona en sus GPUs. La compañía destaca soporte desde el primer día en Hugging Face Transformers, vLLM y Unsloth, tres piezas importantes del ecosistema de modelos abiertos. Transformers facilita pruebas y prototipos. vLLM permite servir modelos con más rendimiento. Unsloth aporta herramientas para adaptar modelos a tareas concretas.

Además, NVIDIA menciona integración con su framework NeMo para fine-tuning y playbooks preparados para DGX Spark, RTX PRO y DGX Station. La idea es reducir el tiempo entre descargar el modelo y tener un entorno local de experimentación, ajuste o despliegue.

Este punto es importante porque la IA local no depende solo del modelo. Hace falta soporte de drivers, librerías, runtime, cuantización, herramientas de inferencia, documentación y flujos de adaptación. Un modelo abierto puede ser muy interesante sobre el papel, pero si ponerlo en marcha exige demasiadas piezas manuales, su adopción se limita.

DGX Spark aparece como uno de los dispositivos destacados. Es un sistema personal de IA basado en el GB10 Grace Blackwell Superchip, con 128 GB de memoria unificada y pila de software NVIDIA AI preinstalada. NVIDIA lo orienta a prototipado, fine-tuning y workflows agénticos completamente locales. DGX Station, por su parte, se presenta como una estación de inferencia de alto rendimiento con 748 GB de memoria coherente.

Por qué importa la generación por difusión en texto

Los modelos de difusión han demostrado su valor en imágenes, vídeo y audio. Llevar esa idea al texto no es trivial, porque el lenguaje tiene dependencias secuenciales fuertes: una frase no solo debe sonar bien, también debe mantener estructura, intención, contexto y coherencia. DiffusionGemma es experimental, así que habrá que ver cómo se comporta frente a modelos autoregresivos maduros en tareas reales de razonamiento, precisión, seguimiento de instrucciones y fiabilidad.

Su interés está en que propone una vía distinta. Si la generación por bloques consigue mantener calidad y reducir latencia, puede resultar especialmente útil para asistentes locales, herramientas de programación y agentes que necesitan planificar, corregir y actuar con rapidez. No necesariamente sustituirá a los modelos autoregresivos en todos los usos, pero puede abrir una categoría propia.

También puede ayudar a cambiar la experiencia de usuario. Muchas aplicaciones de IA actuales dependen de respuestas que llegan poco a poco. En tareas interactivas, esa espera puede romper el flujo. Si un modelo genera bloques completos con más velocidad, la interacción puede parecer menos una conversación escrita y más una herramienta que responde al ritmo de trabajo del usuario.

La licencia Apache 2.0 añade otro elemento relevante. Los pesos abiertos bajo una licencia permisiva facilitan pruebas, integración, investigación y despliegues propios. En un momento en el que muchas empresas quieren evitar dependencia total de APIs cerradas, los modelos abiertos optimizados para hardware local están ganando interés.

IA local, privacidad y nueva competencia

El anuncio encaja con una carrera más amplia entre proveedores de hardware y laboratorios de IA por llevar modelos útiles al dispositivo. Apple empuja Apple Intelligence en sus chips. Qualcomm y AMD hablan de PCs con NPU. Intel intenta reforzar el AI PC. NVIDIA, con su base instalada de GPUs RTX, tiene una ventaja evidente entre creadores, jugadores, desarrolladores y profesionales técnicos.

La IA local no sustituirá al cloud en los modelos más grandes ni en cargas empresariales masivas. Pero sí puede absorber tareas de baja latencia, privacidad, prototipado, agentes personales y asistentes especializados. Para ciertos usos, no enviar datos a un servidor externo es una ventaja importante. Para otros, el beneficio estará en evitar costes variables y mantener control sobre el entorno.

DiffusionGemma apunta precisamente a ese espacio: modelos abiertos, rápidos, ejecutables en local y preparados para flujos de trabajo de un solo usuario. No es una promesa de inteligencia general ni una sustitución inmediata de los grandes modelos comerciales. Es una pieza más en la diversificación de la IA: distintos modelos, distintas arquitecturas y distintas formas de desplegar capacidad.

La carrera de la IA ya no va solo de quién tiene el modelo más grande. También va de quién consigue que un modelo responda más rápido, cueste menos, funcione cerca del usuario y se integre mejor en herramientas reales. Google DeepMind aporta una arquitectura experimental. NVIDIA aporta aceleración, hardware y ecosistema. El resultado puede ser una señal de hacia dónde se mueve la IA local: menos dependencia de la nube para tareas concretas y más capacidad en manos del usuario.

Preguntas frecuentes

¿Qué es DiffusionGemma?

DiffusionGemma es un modelo experimental abierto de Google DeepMind diseñado para generar texto mediante difusión, refinando bloques de hasta 256 tokens en paralelo en lugar de producir texto token a token.

¿Por qué es diferente de un LLM tradicional?

La mayoría de LLM generan texto de forma autoregresiva, un token tras otro. DiffusionGemma trabaja por bloques, lo que puede reducir latencia y aprovechar mejor el cálculo paralelo de las GPUs.

En qué hardware puede ejecutarse?

NVIDIA ha optimizado DiffusionGemma para GeForce RTX, RTX PRO, DGX Spark, DGX Station y GPUs de centro de datos como H100. También cuenta con soporte en Hugging Face Transformers, vLLM y Unsloth.

¿Qué ventaja tiene ejecutarlo en local?

La ejecución local puede reducir latencia, mejorar privacidad, evitar costes por token de APIs externas y facilitar prototipos o agentes que funcionen en el propio equipo.

vía: blogs.nvidia.com