Inteligencia Artificial, Machine Learning
11/05/2026

Gemma 4 acelera hasta 3x en vLLM con MTP y decodificación especulativa

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Google ha lanzado drafters MTP para la familia Gemma 4, una mejora pensada para reducir la latencia de inferencia sin cambiar la calidad final de las respuestas. La promesa es muy atractiva para quienes despliegan modelos abiertos en local, estaciones de trabajo o servidores propios: hasta tres veces más velocidad en determinadas configuraciones, manteniendo el mismo modelo principal como verificador final de la salida.

La novedad ya empieza a moverse entre usuarios avanzados de vLLM, donde algunas pruebas con Gemma 4 31B y modelos cuantizados en FP8 apuntan a mejoras superiores a 3x en escenarios simples. No es todavía una experiencia completamente limpia en todos los entornos, y en algunos casos puede requerir aplicar parches recientes de vLLM, pero la dirección es clara: la inferencia de modelos grandes no solo va a mejorar con más GPU, también con técnicas más inteligentes para generar tokens.

Qué son los drafters MTP y por qué importan

La inferencia tradicional de un modelo de lenguaje funciona de forma autoregresiva: el modelo genera un token, después otro, luego otro. Es eficaz, pero también lento. Cada token exige mover enormes cantidades de parámetros desde la memoria de la GPU hacia las unidades de cómputo. En muchos casos, el cuello de botella no está en la capacidad de cálculo, sino en el ancho de banda de memoria.

La propuesta de Multi-Token Prediction, o MTP, consiste en introducir un modelo auxiliar mucho más ligero, llamado drafter o assistant model. Este modelo pequeño intenta anticipar varios tokens futuros. Después, el modelo principal, por ejemplo Gemma 4 31B, verifica en paralelo si esos tokens son válidos. Si los acepta, se han generado varios tokens en el tiempo que normalmente costaría producir uno.

La idea pertenece al terreno de la decodificación especulativa. No se trata de sustituir al modelo grande por uno pequeño, sino de usar el modelo pequeño para proponer y el grande para validar. Por eso Google sostiene que no hay degradación de calidad ni de lógica de razonamiento: la salida final sigue pasando por el modelo principal.

En la práctica, esto puede cambiar bastante la experiencia. Un asistente de programación, un agente local, una interfaz conversacional o una aplicación de voz no solo necesitan respuestas correctas, sino respuestas rápidas. Ahí cada token por segundo cuenta. Si MTP permite que modelos como Gemma 4 26B o 31B se sientan más ágiles en hardware accesible, el salto no será solo de benchmark, sino de usabilidad.

Elemento	Qué hace	Por qué importa
Modelo principal	Genera y verifica la respuesta final	Mantiene la calidad y el razonamiento
Assistant model / drafter	Propone varios tokens futuros	Reduce esperas entre tokens
Decodificación especulativa	Verifica en paralelo las propuestas	Aumenta tokens por segundo sin cambiar la salida
KV cache compartida	Evita recalcular contexto ya procesado	Reduce trabajo duplicado
vLLM	Sirve el modelo con API compatible con OpenAI	Facilita despliegues en servidores propios

Cómo se está probando en vLLM

La integración con vLLM es una de las más interesantes para administradores y equipos que ya sirven modelos en producción. Google menciona soporte para Transformers, MLX, vLLM, SGLang y Ollama, además de LiteRT-LM para entornos edge. La documentación de vLLM ya recoge el uso de assistant models para Gemma 4, incluidos los drafters gg-hf-am/gemma-4-E2B-it-assistant, gg-hf-am/gemma-4-E4B-it-assistant, gg-hf-am/gemma-4-26B-it-assistant y gg-hf-am/gemma-4-31B-it-assistant.

El ejemplo más directo para Gemma 4 31B en vLLM sería levantar el modelo principal con un speculative-config que apunte al drafter correspondiente:

vllm serve google/gemma-4-31B-it \
  --tensor-parallel-size 2 \
  --max-model-len 8192 \
  --speculative-config '{"model": "gg-hf-am/gemma-4-31B-it-assistant", "num_speculative_tokens": 4}'

En pruebas reales con modelos cuantizados, como FP8, pueden aparecer incompatibilidades si el drafter hereda una configuración de cuantización que no le corresponde. En la discusión técnica de vLLM se menciona precisamente el caso de gemma4_mtp.py y la necesidad de evitar que determinadas capas del assistant model carguen con quant_config del modelo objetivo. Por eso algunos usuarios están aplicando un ajuste manual con quant_config=None mientras esperan una integración estable en una release oficial.

Este matiz es importante. Google ha publicado los drafters y vLLM ya documenta el camino de uso, pero no todos los despliegues van a funcionar igual de bien con cualquier combinación de versión, cuantización, backend de atención y GPU. Quien trabaje con vLLM 0.20.1 o builds recientes debería validar el entorno antes de llevarlo a producción.

Más velocidad sin comprar otra GPU

La parte más atractiva de MTP es económica. Muchos despliegues de modelos abiertos están limitados por coste de hardware, consumo eléctrico o disponibilidad de GPU. Si una técnica de inferencia permite exprimir mejor una máquina existente, el impacto puede ser mayor que una simple mejora incremental.

En servidores propios, más tokens por segundo pueden significar menor latencia para usuarios, mayor capacidad por nodo o menos necesidad de escalar horizontalmente. En estaciones de trabajo, puede hacer más usable un modelo grande para programación, análisis documental o agentes locales. En portátiles y dispositivos edge, la mejora puede traducirse en respuestas más rápidas y menor consumo relativo, aunque dependerá mucho del modelo y del hardware.

Google señala que los drafters MTP para Gemma 4 se publican bajo la misma licencia Apache 2.0 que la familia Gemma 4. Eso facilita su adopción en proyectos abiertos, pruebas internas y productos comerciales, siempre dentro de los términos de uso aplicables. También encaja con una tendencia más amplia: los modelos abiertos ya no compiten solo en calidad, sino en eficiencia de despliegue.

Hay otro detalle técnico relevante. En los modelos E2B y E4B, los assistant models usan centroids masking, una técnica que reduce el cálculo del lm_head al seleccionar un subconjunto de candidatos del vocabulario. vLLM explica que esto puede reducir esa parte del cálculo desde un vocabulario de unos 262.000 tokens a unos 4.000 candidatos, con impacto mínimo en la calidad de los tokens propuestos. En el caso de 26B y 31B, los assistant models disponibles no usan esa optimización, pero siguen permitiendo speculative decoding con varias propuestas por paso.

La mejora no será idéntica en todos los escenarios. La velocidad depende de la longitud de salida, el batch size, la tasa de aceptación de tokens especulativos, el tipo de GPU, la cuantización, la implementación del runtime y el perfil de la tarea. Google habla de hasta 3x, mientras que la ficha de Hugging Face del assistant model menciona mejoras significativas de hasta 2x en su descripción general. Las pruebas comunitarias ya están mostrando resultados muy buenos, pero conviene medir cada caso.

Una señal para el futuro de los modelos abiertos

Gemma 4 ya había llegado con una propuesta clara: modelos abiertos multimodales, variantes densas y MoE, contextos largos y despliegue desde móviles hasta servidores. Los drafters MTP añaden una capa práctica que puede ser decisiva para adopción real. Un modelo bueno que responde despacio puede quedarse en laboratorio. Un modelo algo más ágil puede entrar en flujos diarios de trabajo.

Para vLLM, esta integración también es relevante. El motor se ha convertido en una pieza central para servir modelos en entornos compatibles con la API de OpenAI. Añadir soporte para MTP en Gemma 4 refuerza su papel como infraestructura de inferencia para equipos que quieren controlar sus propios despliegues, ajustar cuantización y experimentar con modelos abiertos de alto rendimiento.

La lectura de fondo es sencilla: la inferencia se está sofisticando. Ya no basta con cargar un modelo y generar tokens uno a uno. KV cache compartida, speculative decoding, MTP, cuantización FP8 o FP4, kernels optimizados y batch scheduling serán cada vez más importantes para que los modelos grandes resulten útiles fuera de los grandes centros de datos.

Para desarrolladores y administradores, el mensaje es doble. Merece la pena probar MTP porque las ganancias pueden ser grandes. Pero también hay que hacerlo con mentalidad de ingeniería: comparar outputs, medir tokens por segundo, revisar latencia p95, comprobar memoria, validar compatibilidad con cuantización y no asumir que un benchmark simple representa todo un workload real.

Gemma 4 con drafters MTP no convierte mágicamente una GPU modesta en un clúster de inferencia, pero sí muestra cómo las optimizaciones de software pueden devolver mucho margen al hardware existente. Y en un momento en el que cada GPU cuenta, eso ya es una noticia importante.

Preguntas frecuentes

¿Qué es un drafter MTP en Gemma 4?
Es un modelo auxiliar ligero que propone varios tokens futuros para que el modelo principal los verifique en paralelo. Su objetivo es acelerar la generación sin cambiar la calidad final de la respuesta.

¿Se pierde calidad al usar MTP?
Según Google, no debería haber degradación porque el modelo principal conserva la verificación final. Aun así, en entornos reales conviene validar resultados y tareas críticas antes de producción.

¿Funciona ya en vLLM?
La documentación de vLLM ya incluye ejemplos para Gemma 4 con assistant models, pero algunas instalaciones pueden requerir builds recientes o parches todavía no integrados en una release estable.

¿Qué mejora de velocidad se puede esperar?
Google habla de hasta 3x en determinados escenarios. La mejora real dependerá del modelo, hardware, batch size, cuantización, número de tokens especulativos y tipo de tarea.

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Alan Sonny

Escribo sobre inteligencia artificial, robótica y tecnología y sigo la actualidad y notas del sector.

Últimos artículos

Karpathy pone palabras al “cambio de fase” del coding con LLM… y el creador de Claude Code lo lleva al extremo

Grok, la IA de xAI, solo estará disponible en Teslas con procesadores AMD Ryzen

Tesla presenta a Optimus: el robot humanoide capaz de navegar terrenos difíciles

Tesla presenta el Robotaxi: el futuro del transporte autónomo a precio accesible

China apunta a superar a Tesla con su avance en robots humanoides

Artículos relacionados

Gemma 4 acelera hasta 3x en vLLM con MTP y decodificación especulativa

Claude Security lleva la revisión de vulnerabilidades al código empresarial

Tu Carrera Comienza al Inicio de la Revolución de la IA, Dice CEO de NVIDIA a Graduados

Midjourney 8.1 intenta recuperar su sitio en la IA visual

OpenAI abre MRC, el protocolo que evita que las GPU se queden paradas

Ejecutando Codex de forma segura en OpenAI

Claude Mythos empuja a METR al límite: la IA ya resuelve tareas de horas

Zyphra lanza ZAYA1-8B, un modelo pequeño que presume de razonar como uno grande