Multiverse Computing lanza Pulsar 16B, un modelo abierto que busca hacer rentable la IA de razonamiento

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Multiverse Computing ha presentado Pulsar 16B, un nuevo modelo abierto de razonamiento desarrollado sobre la arquitectura NVIDIA Nemotron y validado por NVIDIA. La propuesta llega en un momento en el que muchas empresas ya no se preguntan solo si un modelo es suficientemente bueno, sino si pueden desplegarlo de forma sostenible en producción, con latencia razonable, costes controlados y capacidad para operar en entornos regulados, on-premise o sensibles a la privacidad.

El modelo tiene 16,15 mil millones de parámetros totales y 3,1 mil millones de parámetros activos. Según Multiverse Computing, ofrece un rendimiento comparable al de modelos de alrededor de 30 mil millones de parámetros con una huella cercana a la mitad. La compañía lo publica bajo licencia Apache 2.0 y lo distribuye en versiones BF16, FP8 y NVFP4, lo que permite ajustar consumo de memoria, precisión y rendimiento según el hardware disponible.

Un Nemotron comprimido sin volver a entrenar desde cero

Pulsar 16B se construye sobre una versión comprimida y optimizada de NVIDIA Nemotron 3 Nano 30B-A3B-BF16, un modelo Hybrid Mamba2-Transformer con arquitectura Mixture-of-Experts. El modelo base tiene 31,6 mil millones de parámetros totales y 3,5 mil millones activos; tras el proceso de compresión, Pulsar queda en 16,15 mil millones totales y 3,1 mil millones activos, sin necesidad de reentrenar desde cero.

La clave técnica está en CompactifAI, la tecnología propietaria de Multiverse Computing. La compañía la describe como un enfoque de compresión estructural basado en descomposición tensorial inspirada en matemáticas cuánticas. Frente a métodos más directos, como recortar pesos o aplicar cuantización de forma aislada, CompactifAI intenta identificar redundancia matemática dentro de la red ya entrenada y eliminarla preservando los patrones de razonamiento aprendidos.

El proceso se apoya también en herramientas de NVIDIA, como NVIDIA Model Optimizer y Megatron Bridge, dentro de una canalización de compresión validada sobre infraestructura acelerada de NVIDIA. La compañía afirma que NVIDIA reprodujo de forma independiente el conjunto completo de evaluaciones, un punto relevante porque muchas comparativas de modelos abiertos suelen depender solo de resultados internos o de pruebas difíciles de reproducir.

Característica	Pulsar 16B
Desarrollador	Multiverse Computing
Base arquitectónica	NVIDIA Nemotron 3 Nano 30B-A3B
Arquitectura	Hybrid Mamba2-Transformer con Mixture-of-Experts
Parámetros totales	16,15 mil millones
Parámetros activos	3,1 mil millones
Modelo base comprimido	31,6 mil millones de parámetros, 3,5 mil millones activos
Versiones	BF16, FP8 y NVFP4
Licencia	Apache 2.0
Inferencia	vLLM y Hugging Face Transformers
Casos objetivo	Agentes, razonamiento, contexto largo, on-premise, entornos regulados

Menos memoria, más rendimiento por GPU

El argumento de Pulsar 16B no se apoya solo en puntuaciones de benchmark. Multiverse insiste en la economía de inferencia: un modelo más pequeño puede servir más solicitudes con la misma infraestructura, reducir latencia y abrir la puerta a despliegues donde un modelo de 30B o 60B resulta demasiado caro.

En las pruebas descritas por la compañía sobre GPU NVIDIA B200, Pulsar 16B-BF16 elevó el throughput del sistema de 3.363 a 3.760 tokens por segundo frente a la referencia Nemotron de clase 30B, mientras redujo el tiempo hasta el primer token de 2,18 a 1,80 segundos. Las versiones cuantizadas empujan más el rendimiento: FP8 alcanza 4.808 tokens por segundo y NVFP4 llega a 4.735, con un tiempo hasta el primer token cercano a 1,25 segundos.

La diferencia de memoria es igual de importante. Según Multiverse, los pesos pasan de 59 GB en la referencia a unos 16 GB en FP8 y 10 GB en NVFP4. Eso no solo abarata el servicio en grandes centros de datos. También cambia el tipo de GPU donde se puede desplegar el modelo y facilita configuraciones de nodo único, instalaciones on-premise o sistemas de baja latencia.

Métrica	Base Nemotron 30B-A3B	Pulsar 16B BF16	Pulsar 16B FP8	Pulsar 16B NVFP4
Peso aproximado	59 GB	Menor que la base	16 GB	10 GB
Throughput en B200	3.363 tokens/s	3.760 tokens/s	4.808 tokens/s	4.735 tokens/s
Tiempo hasta primer token	2,18 s	1,80 s	~1,25 s	~1,25 s
Lectura práctica	Modelo de referencia	Menor huella	Más rendimiento con buena calidad	Máxima reducción de memoria

La compañía también afirma que FP8 mantiene la calidad de BF16 en la evaluación de NVIDIA, mientras que NVFP4 pierde entre un 1 % y un 6 % según la prueba, una caída limitada si se compara con la reducción de memoria. Como ocurre siempre con benchmarks de fabricante, estos datos deben validarse en cargas reales de cada organización, pero el patrón es claro: Pulsar busca reducir el coste operativo sin renunciar a razonamiento avanzado.

Razonamiento, agentes y contexto largo

Multiverse presenta Pulsar 16B como un modelo pensado para agentes de producción. Eso significa tres cosas: seguir instrucciones con precisión, llamar herramientas de forma fiable y mantener razonamiento coherente en contextos largos. En los resultados publicados, el modelo alcanza 87,22 en AIME 2025, 71,41 en GPQA-Diamond y supera a gpt-oss-20B en pruebas agrupadas de seguimiento de instrucciones, función calling y razonamiento matemático, según la evaluación de la compañía.

El contexto largo es otro punto sensible. Muchas técnicas de compresión funcionan bien en preguntas cortas, pero se degradan cuando el modelo debe procesar documentos extensos, contratos, bases de conocimiento, código o transcripciones largas. Multiverse afirma que Pulsar 16B fue evaluado en LongBench, AA-LCR, RULER y pruebas Needle-in-a-Haystack por encima de 100K tokens, manteniendo una recuperación casi perfecta en esas pruebas.

Esa parte es importante para empresas. Un asistente de soporte que vive dentro de una wiki, un copiloto legal que revisa contratos o un agente de investigación que trabaja sobre cientos de documentos no necesita solo “ser inteligente”. Necesita no perder el hilo cuando el contexto crece. Si Pulsar mantiene ese comportamiento con menor huella, puede encajar en entornos donde los modelos grandes son técnicamente atractivos, pero económicamente difíciles de operar.

La eficiencia vuelve al centro de la carrera de modelos

Pulsar 16B llega en un momento en el que el mercado empieza a mirar más allá del tamaño bruto. Durante los últimos años, buena parte de la competición se ha contado en parámetros, ventanas de contexto y rankings de razonamiento. Ahora el foco se desplaza hacia otra pregunta: cuánta capacidad útil se puede ejecutar por euro, por vatio y por GPU disponible.

NVIDIA ya había orientado la familia Nemotron hacia modelos abiertos, eficientes y pensados para agentes. En publicaciones técnicas sobre Nemotron 3 Super, por ejemplo, se destaca el uso de arquitecturas híbridas Mamba-Transformer, Mixture-of-Experts, soporte para BF16, FP8 y NVFP4, y despliegue con vLLM para sistemas multiagente eficientes. Pulsar 16B se suma a esa línea desde una capa distinta: la compresión estructural aplicada a un modelo ya entrenado.

Para Multiverse Computing, la jugada también encaja con su posicionamiento en Inteligencia Artificial soberana y eficiente. La empresa, con sede en Donostia-San Sebastián y presencia internacional, ya había lanzado modelos comprimidos como HyperNova 60B, una versión reducida de gpt-oss-120B, y plantea CompactifAI como una vía para reducir barreras de despliegue en cloud, centros de datos propios y edge.

La oportunidad es evidente en sectores regulados. Banca, energía, industria, salud, administración pública o defensa suelen tener restricciones sobre dónde se ejecutan los modelos, qué datos pueden salir y qué trazabilidad exige cada flujo. Un modelo razonador abierto, más pequeño y con licencia permisiva puede resultar atractivo si permite operar dentro de infraestructura propia sin asumir el coste de modelos mucho mayores.

La cautela también es necesaria. Pulsar 16B no convierte automáticamente un entorno local en equivalente a un sistema de frontera cerrado. Su rendimiento deberá comprobarse en tareas reales, idiomas concretos, datos internos, herramientas corporativas y requisitos de seguridad. Además, la compresión puede comportarse muy bien en benchmarks y mostrar límites en dominios muy especializados o con instrucciones ambiguas.

Aun así, el lanzamiento apunta a una tendencia sólida: el futuro de los modelos empresariales no dependerá solo de entrenar redes cada vez más grandes. También dependerá de comprimir, cuantizar, enrutar y desplegar mejor. En producción, el modelo ganador no es siempre el más grande, sino el que ofrece la mejor relación entre capacidad, coste, latencia, control y facilidad de operación.

Pulsar 16B resume bien ese cambio. No promete sustituir a los gigantes cerrados en todos los escenarios. Propone algo más práctico: acercar razonamiento avanzado a empresas que necesitan control local, costes previsibles y una infraestructura que puedan operar sin depender siempre de clústeres cloud de gran escala.

Preguntas frecuentes

¿Qué es Pulsar 16B?
Pulsar 16B es un modelo abierto de razonamiento desarrollado por Multiverse Computing sobre arquitectura NVIDIA Nemotron. Tiene 16,15 mil millones de parámetros totales y 3,1 mil millones activos.

¿Qué significa que esté validado por NVIDIA?
Según Multiverse Computing, NVIDIA reprodujo de forma independiente la suite completa de evaluación sobre su propia infraestructura acelerada, confirmando los resultados publicados por la compañía.

¿Por qué importa que esté disponible en FP8 y NVFP4?
Porque reduce mucho la memoria necesaria para servir el modelo. La versión FP8 ocupa alrededor de 16 GB de pesos y la NVFP4 unos 10 GB, lo que facilita despliegues más económicos y en más tipos de GPU.

¿Para qué casos de uso está pensado?
Para agentes de razonamiento, asistentes empresariales con contexto largo, pipelines documentales, soporte con herramientas, entornos on-premise, sectores regulados y aplicaciones sensibles a latencia o costes.

vía: multiversecomputing y huggingface