NVIDIA y Mistral AI han reforzado su alianza con el anuncio de Mistral 3, una nueva familia de modelos abiertos, multilingües y multimodales, diseñada para funcionar desde los grandes centros de datos hasta dispositivos en el edge. La colaboración combina la arquitectura de modelos de Mistral AI con la plataforma de aceleración de NVIDIA, con el objetivo de hacer que la inteligencia artificial avanzada sea más eficiente, escalable y accesible para empresas y desarrolladores.
El corazón de este anuncio es Mistral Large 3, un modelo de tipo mixture-of-experts (MoE) optimizado sobre la infraestructura de NVIDIA, en especial para los sistemas GB200 NVL72, y acompañado por una gama de modelos pequeños denominada Ministral 3, pensada para ejecutarse en PCs, portátiles y dispositivos embebidos con GPU.
Mistral Large 3: un modelo MoE gigante, diseñado para ser eficiente
Mistral Large 3 se presenta como un modelo MoE de nueva generación: en lugar de activar todos los parámetros en cada token, solo pone en marcha los “expertos” más relevantes. Esa selección dinámica permite reducir el cómputo sin renunciar a precisión, un aspecto clave cuando se habla de despliegues de IA a escala empresarial.
El modelo combina:
- 675.000 millones de parámetros en total,
- con 41.000 millones de parámetros activos por token,
- y una ventana de contexto de 256.000 tokens, pensada para manejar conversaciones largas, grandes volúmenes de documentos o flujos multimodales complejos.
Esta arquitectura MoE está preparada para aprovechar al máximo la interconexión y la memoria coherente de los sistemas NVIDIA GB200 NVL72, donde múltiples GPUs comparten datos de forma más eficiente. El resultado es un modelo capaz de ofrecer gran capacidad de razonamiento y contexto, pero con un uso de recursos más ajustado que el de un modelo denso tradicional de tamaño equivalente.
Optimizado para la nueva generación de hardware y software de NVIDIA
La alianza se apoya en toda la pila de NVIDIA, desde el hardware hasta el software de inferencia. Mistral Large 3 se ha optimizado específicamente para:
- NVIDIA NVLink, que proporciona un dominio de memoria coherente y ancho de banda muy elevado entre GPUs, clave para el paralelismo de expertos a gran escala.
- Formatos de baja precisión como NVFP4, que reducen el coste de cálculo y memoria manteniendo la calidad de las respuestas.
- Optimizaciones de inferencia distribuidas como NVIDIA Dynamo, pensadas para separar las fases de prefill y decode y mejorar la latencia en contextos largos.
Sobre esta base, NVIDIA ha afinado marcos de inferencia como TensorRT-LLM, SGLang y vLLM para la familia Mistral 3. Según la compañía, en los sistemas GB200 NVL72 el modelo logra ganancias de rendimiento frente a la generación anterior H200, lo que se traduce en mejor experiencia para el usuario final, menor coste por token y mayor eficiencia energética en grandes despliegues.
Ministral 3: nueve modelos pequeños para llevar la IA al edge
Más allá del modelo de gran tamaño, Mistral AI ha presentado también nueve modelos pequeños, agrupados bajo la marca Ministral 3. Se trata de una familia de modelos compactos diseñada para “correr en cualquier sitio” sobre plataformas de NVIDIA:
- NVIDIA Spark, para entornos de computación de alto rendimiento.
- PCs y portátiles con GPUs RTX, cada vez más frecuentes en entornos profesionales y de creación de contenido.
- Dispositivos NVIDIA Jetson, orientados a robótica, visión artificial y aplicaciones industriales en el edge.
Estos modelos pequeños están pensados para tareas de asistentes locales, análisis ligeros, agentes que deben funcionar con baja latencia o incluso aplicaciones que requieren operar parcialmente sin conexión. Para facilitar su adopción, NVIDIA y Mistral destacan la integración con herramientas populares como Llama.cpp y Ollama, que permiten a desarrolladores y entusiastas probar Ministral 3 de forma rápida en sus propios equipos.
Modelos abiertos, ecosistema NeMo y microservicios NIM
Un elemento central del anuncio es el carácter abierto de la familia Mistral 3. Los modelos se publican como modelos open source, de forma que investigadores y desarrolladores pueden:
- Descargar los pesos.
- Realizar fine-tuning para casos de uso específicos.
- Integrarlos en sus propias aplicaciones y pipelines de IA.
La alianza también conecta estos modelos con el ecosistema de herramientas NVIDIA NeMo para el ciclo de vida de agentes de IA. Entre ellas, se incluyen:
- Data Designer, para preparar y curar datos.
- Customizer, para adaptar el modelo a datos propietarios.
- Guardrails, para aplicar controles y políticas de seguridad en las respuestas.
- NeMo Agent Toolkit, para construir agentes complejos basados en Mistral 3.
Además, NVIDIA prevé que la familia Mistral 3 se pueda desplegar como microservicios NVIDIA NIM, lo que facilitará su uso en arquitecturas de nube híbrida y multi-nube, encapsulando la complejidad del despliegue en servicios listos para usar sobre GPUs.
Hacia una “inteligencia distribuida” de la nube al dispositivo
Mistral AI define este enfoque como un paso hacia una era de “inteligencia distribuida”: grandes modelos en centros de datos, capaces de gestionar tareas de alto nivel y contexto muy amplio, combinados con modelos pequeños ejecutándose cerca del usuario, en el edge o en su propio ordenador.
En la práctica, esto permite a las organizaciones diseñar arquitecturas en las que:
- Los modelos de gran tamaño se encargan del razonamiento profundo, la planificación compleja o el análisis masivo de datos.
- Los modelos compactos Ministral 3 ejecutan tareas rápidas y cercanas al usuario, reduciendo latencia, aumentando la privacidad y disminuyendo la dependencia de la conectividad permanente.
Al ser abiertos, estos modelos ofrecen a empresas y administraciones la posibilidad de construir soluciones de IA más controladas, evitando dependencias excesivas de modelos cerrados y facilitando el cumplimiento de normativas de soberanía de datos y gobernanza de la IA.
Preguntas frecuentes sobre Mistral 3 y su integración con NVIDIA
¿Qué diferencia a Mistral Large 3 de otros grandes modelos de lenguaje?
Mistral Large 3 utiliza una arquitectura mixture-of-experts en lugar de un modelo denso clásico. Esto significa que solo activa una parte de la red en cada token, lo que reduce el coste de cómputo manteniendo un alto nivel de precisión. Además, combina 675.000 millones de parámetros totales con 41.000 millones activos y una ventana de contexto de 256.000 tokens, lo que le permite manejar tareas de contexto largo de forma eficiente.
¿Para qué tipo de casos de uso está pensado Mistral Large 3?
Está orientado a cargas de trabajo empresariales exigentes: agentes avanzados, asistentes empresariales con acceso a grandes bases documentales, análisis extensos de texto, generación multimodal y aplicaciones donde la combinación de contexto largo y razonamiento es clave. Su diseño se ha optimizado para ejecutarse en infraestructuras de alto rendimiento como los sistemas NVIDIA GB200 NVL72.
¿Qué aporta la suite Ministral 3 frente a usar solo el modelo grande?
Ministral 3 agrupa nueve modelos pequeños optimizados para ejecutarse en GPUs RTX, plataformas Spark y dispositivos Jetson. Permiten llevar parte de la inteligencia al edge: asistentes locales, agentes que funcionan en el propio portátil o en un robot en fábrica, así como aplicaciones que necesitan baja latencia o mayor control de los datos, sin depender siempre de un gran modelo en la nube.
¿Pueden las empresas personalizar estos modelos con sus propios datos?
Sí. La familia Mistral 3 se ofrece como modelos abiertos, y además se integra con las herramientas de NVIDIA NeMo para diseño de datos, fine-tuning, aplicación de guardrails y construcción de agentes. Esto permite a las organizaciones adaptar los modelos a su dominio, incorporar conocimiento específico del negocio y desplegarlos tanto en centros de datos como en el edge mediante marcos de inferencia optimizados y microservicios NIM.



