Qwen3.5-35B-A3B en 4 bits: el modelo “local” que está reabriendo la carrera del código abierto en Inteligencia Artificial

La escena de la Inteligencia Artificial de código abierto vive un momento de euforia difícil de ignorar: cada vez más modelos “serios” dejan de ser exclusivos de centros de datos y empiezan a funcionar —con soltura— en equipos de sobremesa. El último protagonista de esta tendencia es Qwen3.5-35B-A3B, una de las nuevas variantes de la familia Qwen de Alibaba Cloud, que se ha disparado en popularidad por un motivo muy concreto: combina un diseño eficiente tipo Mixture-of-Experts (MoE) con cuantización a 4 bits, lo que permite ejecutarlo localmente con un consumo de memoria relativamente contenido.

La señal de que algo está pasando no viene solo de benchmarks: llega, sobre todo, del entusiasmo de la comunidad. En foros especializados, un usuario reportaba 60 tokens por segundo ejecutando una conversión a 4 bits en un Mac Studio con M1 Ultra y 64 GB de RAM, una cifra que, sin ser un estándar oficial, ilustra el cambio de escala: modelos que hace poco se asociaban a GPU dedicadas empiezan a encajar en hardware doméstico con buena experiencia interactiva.

Qué es exactamente Qwen3.5-35B-A3B (y qué significa “A3B”)

El nombre del modelo resume su propuesta. “35B” alude a 35.000 millones de parámetros totales, mientras que “A3B” indica que, por diseño MoE, solo se activan alrededor de 3.000 millones de parámetros por token en tiempo de inferencia. En teoría, esto permite acercarse a capacidades de un modelo grande sin pagar el coste completo de computación en cada paso, porque el modelo “elige” qué expertos activar.

La ficha técnica publicada en Hugging Face lo detalla con precisión: el modelo incluye 256 expertos, con 8 expertos enrutados y 1 compartido activados en cada token, y se presenta como un modelo multimodal (“Causal Language Model with Vision Encoder”), es decir, con capacidad de trabajar también con entradas visuales en determinados flujos. Además, destaca por su ventana de contexto: 262.144 tokens de forma nativa, con posibilidad de extenderla mediante técnicas de escalado hasta aproximadamente 1.010.000 tokens según la propia documentación del modelo.

Un punto no menor para adopción empresarial y comunidad: la licencia del modelo se lista como Apache 2.0, un estándar permisivo que facilita usos comerciales y despliegues internos sin la fricción de licencias restrictivas.

Por qué el “4-bit” es el acelerador de la fiebre local

La cuantización es una palabra técnica con consecuencias prácticas muy simples: reduce el tamaño del modelo y su huella en memoria, a cambio de posibles pérdidas de precisión (según método y caso de uso). En la práctica, el salto a 4 bits es el que suele marcar la diferencia entre “no cabe” y “funciona en local”.

En el caso de Qwen3.5-35B-A3B, la industria ha interpretado que la combinación de MoE (3B activados por token) y cuantización a 4 bits lo convierte en un candidato especialmente atractivo para “máquinas reales” fuera del datacenter. El modelo ha aparecido rápidamente en formatos y ecosistemas pensados para consumo local:

  • MLX (Apple Silicon): la comunidad ha publicado conversiones a 4 bits para MLX, el framework de Apple orientado a rendimiento en sus chips, lo que explica parte del interés en Mac.
  • Ollama: el modelo figura ya en su librería, facilitando la instalación y ejecución con un simple comando.
  • Ecosistema Hugging Face / vLLM / SGLang: el propio modelo se distribuye en formato compatible con frameworks de inferencia populares.

Conviene matizar un detalle importante: los resultados de velocidad (tokens/s) dependen del runtime, del formato, de la configuración de contexto, del muestreo y del “offload” entre CPU y GPU. Por eso, las cifras virales en redes deben leerse como termómetro de viabilidad, no como garantía universal.

Qué aporta Qwen3.5 frente a la oleada de modelos “open-weight”

El lanzamiento de Qwen3.5 llega en un contexto donde el “open-weight” se ha convertido en el terreno más competitivo de la Inteligencia Artificial moderna. A finales de febrero de 2026, la propia organización Qwen confirma la liberación de varios tamaños de Qwen3.5 (incluyendo 27B, 35B-A3B y 122B-A10B) como una familia con ambición de cubrir desde equipos personales hasta servidores.

A nivel mediático, la comparación inevitable es con los modelos occidentales más conocidos. Un análisis publicado por VentureBeat señalaba que Qwen3.5, en pruebas de terceros que cita, compite con modelos propietarios recientes en algunas métricas y pone el foco en dos ideas que resuenan especialmente en 2026: capacidad útil y coste de despliegue, incluyendo la promesa de buen comportamiento bajo cuantización.

Y más allá de Alibaba, la foto de la carrera es clara:

  • Meta (Llama 4): Meta presentó Llama 4 Scout y Maverick como modelos “open-weight” y multimodales, con narrativas fuertes sobre contexto largo y eficiencia, aunque el debate sobre qué significa “abierto” sigue vivo por sus restricciones de uso para ciertos actores.
  • DeepSeek (V3.2): DeepSeek ha consolidado una línea de modelos open-weight con énfasis en eficiencia y rendimiento, con análisis técnicos que han circulado ampliamente en la comunidad investigadora.
  • Mistral (Devstral / Codestral): Mistral ha empujado modelos orientados a código con versiones open-weight y licencias permisivas en ciertos tamaños, reforzando la idea de que el “coding assistant local” ya no es una rareza.

En este mapa, Qwen3.5-35B-A3B juega una carta distinta: no intenta ser el modelo más grande, sino uno de los más “rentables” para ejecutar cerca del usuario.

Comparativa rápida: dónde encaja Qwen3.5-35B-A3B

ModeloEnfoqueVentaja práctica
Qwen3.5-35B-A3BMoE (35B total / 3B activados), multimodal, contexto muy largoBuen equilibrio entre calidad y coste por token; especialmente atractivo con 4-bit
Qwen3.5-27BDensoSuele percibirse como más “directo” en ciertas tareas; a cambio, puede ser más pesado en inferencia
Qwen3.5-122B-A10BMoE de mayor escalaMás margen en tareas complejas, pensado para entornos con más recursos

Nota: las diferencias reales dependen mucho de la cuantización, del framework y del tipo de tarea (código, razonamiento, visión, herramientas).

Lo que cambia para 2026: “IA local” como opción seria

El elemento de fondo es más grande que Qwen: la Inteligencia Artificial local se está normalizando. Ya no se trata solo de privacidad o de jugar con modelos pequeños, sino de operar con sistemas capaces de:

  • generar código con calidad práctica,
  • usar herramientas (tool calling) en flujos agénticos,
  • y manejar contextos enormes sin partir un documento en trozos a mano.

En paralelo, el auge del open-weight también reabre debates geopolíticos y de cadena de suministro: desde cómo se distribuyen modelos y quién accede primero, hasta el papel de chips alternativos y stacks locales. La carrera ya no es solo “quién entrena mejor”, sino “quién hace que la Inteligencia Artificial sea desplegable en cualquier sitio”.


Preguntas frecuentes (FAQ)

¿Qué significa “35B-A3B” en Qwen3.5?
Que el modelo tiene 35.000 millones de parámetros en total, pero activa alrededor de 3.000 millones por token gracias a su arquitectura MoE.

¿Por qué la versión 4-bit es tan popular?
Porque reduce mucho el consumo de memoria y permite ejecutar el modelo localmente en más equipos, con un impacto variable en precisión según la cuantización.

¿Qwen3.5-35B-A3B es realmente “código abierto”?
Sus pesos son open-weight y la licencia listada es Apache 2.0, lo que facilita usos comerciales; aun así, “código abierto” suele referirse al software, no al modelo.

¿Qué hace especial a Qwen3.5 frente a otros modelos open-weight?
La combinación de MoE (pocos parámetros activados), contexto muy largo (262.144 tokens nativos) y buena disponibilidad en formatos para uso local.

Scroll al inicio