Durante años, la industria de los modelos de lenguaje ha repetido casi el mismo mantra: si se quiere más capacidad, hacen falta más parámetros, más memoria y más hardware. Por eso el lanzamiento de Bonsai 8B, el nuevo modelo de PrismML, ha llamado tanto la atención. La startup, nacida a partir de investigación vinculada a Caltech, asegura haber metido 8.190 millones de parámetros en apenas 1,15 GB de memoria en su versión GGUF Q1_0, frente a los 16,38 GB que necesitaría su equivalente en FP16.
La cifra no es solo llamativa por tamaño. PrismML sostiene además que Bonsai 8B puede correr a 44 tokens por segundo en un iPhone 17 Pro Max en su versión MLX para Apple, una velocidad que lo coloca ya en terreno de conversación fluida en local, sin depender de la nube. En la práctica, eso empuja una idea que hasta hace poco parecía poco realista: modelos de 8B útiles de verdad en móviles, Mac y dispositivos edge sin el peaje habitual de memoria y consumo.
Lo importante aquí no es solo el titular técnico, sino lo que implica. Si estas cifras se sostienen fuera del material promocional del fabricante, el viejo equilibrio entre tamaño y rendimiento en los LLM empieza a moverse de forma seria. Y eso afecta tanto a desarrolladores que quieren ejecutar modelos en local como a fabricantes de dispositivos, robots, sistemas embebidos y agentes que hoy siguen dependiendo de infraestructura cloud mucho más cara.
Qué hace diferente a Bonsai 8B
La base del avance está en el uso de pesos de 1 bit. En lugar de almacenar cada peso del modelo como un número en 16 o 32 bits, Bonsai restringe los valores a una representación binaria con un factor de escala compartido por grupos de 128 pesos. Según la documentación oficial del modelo, esa cuantización de extremo a extremo se aplica a embeddings, proyecciones de atención, MLP y LM head, sin “escapes” a precisión más alta en esas capas principales. PrismML lo presenta como un modelo de 1 bit real, no como una cuantización agresiva parcial.
También hay otro matiz relevante: Bonsai 8B está construido sobre la arquitectura de Qwen3-8B dense, no es una arquitectura totalmente nueva desde cero. El modelo card publicado en Hugging Face indica 36 bloques decoder, contexto de 65.536 tokens y licencia Apache 2.0. Eso ayuda a entender por qué la noticia no trata solo de “otro LLM open weight”, sino de una técnica de compresión y despliegue que podría reutilizar ideas ya conocidas en modelos densos competitivos.
PrismML no se limita a hablar de tamaño. En su web y en su nota de lanzamiento afirma que la familia Bonsai tiene una huella 14 veces menor, corre 8 veces más rápido y es 5 veces más eficiente energéticamente que sus equivalentes de precisión completa, mientras mantiene resultados comparables a modelos líderes de tamaño similar en benchmarks. Ese tipo de afirmación conviene leerla como dato del fabricante, no como consenso independiente del sector, pero marca bien la ambición del proyecto.
Lo que dicen los benchmarks… y lo que no dicen
El modelo card de Hugging Face y la web de PrismML sitúan a Bonsai 8B en una media de 70,5 puntos a través de seis benchmarks, una cifra que la empresa presenta como competitiva frente a modelos completos de su misma clase. En su material más reciente, PrismML incluso usa esa referencia para comparar el salto posterior de Ternary Bonsai 8B, que eleva la media a 75,5 con 1,75 GB de memoria y se coloca, según la propia compañía, solo por detrás de Qwen3 8B entre sus pares directos.
Ahora bien, aquí es donde conviene enfriar un poco el entusiasmo. El propio artículo viral que ha popularizado el modelo reconoce que HumanEval+ es uno de sus puntos débiles y que ahí queda claramente por detrás de Qwen 3 8B. Además, por ahora siguen faltando comparativas amplias e independientes en escenarios de uso real fuera de los benchmarks oficiales del fabricante. Hay pruebas comunitarias y primeras impresiones prometedoras, pero todavía no existe un consenso sólido que permita afirmar que Bonsai 8B “rompe” sin matices a Llama, Gemma o Qwen en calidad general.
Eso no reduce el interés del lanzamiento. De hecho, quizá lo haga más relevante. Porque incluso si Bonsai 8B no supera a los mejores 8B en todos los terrenos, el simple hecho de acercarse con una huella de memoria tan baja ya cambia bastante la conversación. En edge computing y despliegue local, muchas veces no gana el modelo más brillante en absoluto, sino el que entra en el dispositivo, responde rápido y no obliga a rediseñar toda la infraestructura.
El verdadero impacto: menos nube, más IA local
La apuesta de PrismML va bastante más allá del marketing de un modelo pequeño. La compañía sitúa Bonsai dentro de una estrategia centrada en robótica, agentes en tiempo real y computación en el edge, es decir, en entornos donde la latencia, la energía y la memoria son tan importantes como la calidad pura del modelo. La empresa también ha anunciado que el proyecto es open weight y que ya hay versiones para GGUF y MLX, además de kernels adaptados para CUDA, Metal, Android y Apple Silicon.
Ese contexto importa mucho. Un modelo de 8B que entra en 1,15 GB no solo abarata el despliegue: también amplía el número de lugares donde un LLM razonablemente potente puede ejecutarse. Teléfonos, mini-PC, sistemas industriales, robots, hardware dedicado o aplicaciones offline dejan de estar tan limitados por la barrera clásica de memoria. La propia Wall Street Journal subrayó que PrismML está intentando cambiar la economía de la IA local al reducir de forma drástica el tamaño, el ancho de banda y el consumo energético asociados a modelos de este nivel.
Dicho de otra manera: Bonsai 8B no demuestra necesariamente que el tamaño ya no importe, pero sí que la densidad de inteligencia por gigabyte va a convertirse en una métrica mucho más relevante en esta nueva fase del mercado. Y si ese cambio se consolida, no solo cambiará qué modelo usan los desarrolladores, sino también qué tipo de dispositivo podrá ejecutar IA útil sin depender todo el tiempo del cloud.
Preguntas frecuentes
¿Qué tamaño ocupa realmente Bonsai 8B?
La versión GGUF Q1_0 publicada por PrismML ocupa 1,15 GB de memoria para pesos y escalas, mientras que la versión MLX 1-bit para Apple Silicon sube a 1,28 GB. Su equivalente en FP16 necesitaría 16,38 GB.
¿Es un modelo nuevo o una compresión de otro ya existente?
PrismML indica en el modelo card que Bonsai 8B se basa en la arquitectura Qwen3-8B dense, aunque con una implementación propia de pesos de 1 bit de extremo a extremo.
¿De verdad corre en un iPhone?
Sí, al menos según PrismML. La compañía afirma que la versión MLX Swift alcanza 44 tokens por segundo en un iPhone 17 Pro Max. Esa cifra procede de material oficial del fabricante y todavía necesita más validación independiente extensa.
¿Supera a Llama, Gemma o Qwen?
No de forma clara y universal. PrismML sostiene que Bonsai 8B es competitivo en promedio frente a modelos de tamaño similar, pero las pruebas iniciales apuntan a que sigue teniendo debilidades, especialmente en código frente a Qwen 3 8B. La gran novedad está más en la relación entre tamaño, velocidad y calidad que en una victoria absoluta en todos los benchmarks.













