Mistral AI ha presentado Mistral Medium 3.5 junto a una nueva generación de agentes remotos para Vibe y un modo de trabajo en Le Chat pensado para tareas largas, con herramientas, ejecución en la nube y flujos de varios pasos. El lanzamiento es relevante porque no llega como un simple modelo más para chat, sino como una apuesta muy clara: un único modelo denso de 128B parámetros para instrucciones, razonamiento, programación y agentes.
La compañía francesa lo posiciona como su nuevo modelo por defecto en Le Chat y en Vibe CLI, reemplazando piezas anteriores más especializadas. Mistral Medium 3.5 tiene ventana de contexto de 256.000 tokens, razonamiento configurable por petición, capacidades de visión y pesos abiertos bajo una licencia MIT modificada. Además, Mistral afirma que puede autoalojarse en tan solo cuatro GPU, un detalle importante para empresas que quieren controlar costes, privacidad o soberanía técnica.
El movimiento llega en un mercado donde Claude Opus 4.7 y GPT-5.5 en Codex están compitiendo por convertirse en la referencia para programación agéntica y trabajo profesional. La diferencia es que Mistral no intenta ganar solo por potencia bruta. Su mensaje es otro: rendimiento alto, coste menor, pesos abiertos y posibilidad real de desplegar fuera de una nube propietaria.
Un modelo único para instrucciones, razonamiento y código
Mistral Medium 3.5 rompe con una tendencia habitual en los grandes laboratorios: separar modelos para chat, razonamiento, programación o tareas agénticas. Aquí la apuesta es fusionar esas capacidades en un único conjunto de pesos. Eso simplifica el producto y puede facilitar despliegues empresariales, porque una misma base sirve para responder, razonar, usar herramientas y escribir código.
Los resultados publicados por Mistral muestran un modelo competitivo frente a alternativas mucho mayores. En AIME25 avg@16 alcanza 86,3 puntos, muy cerca de Claude Sonnet 4.5, Claude Sonnet 4.6 y GLM 5. En Collie obtiene 95,8, por encima del resto de modelos comparados en la gráfica. En IFBench queda en 69,0, por debajo de Qwen3.5 y cerca de Kimi K2.5. En Beyond AIME avg@16 marca 66,9, superado por Qwen3.5, pero por encima de Claude Sonnet 4.5 y Claude Sonnet 4.6 en la tabla facilitada.
| Benchmark | Mistral Medium 3.5 | Mejor dato mostrado en la gráfica | Lectura rápida |
|---|---|---|---|
| AIME25 avg@16 | 86,3 | GLM 5 con 87,1 | Muy competitivo en matemáticas |
| AllenAI IFBench | 69,0 | Qwen3.5 con 76,5 | Buen resultado, pero no lidera |
| Collie | 95,8 | Mistral Medium 3.5 con 95,8 | Lidera en seguimiento de instrucciones |
| Beyond AIME avg@16 | 66,9 | Qwen3.5 con 72,3 | Fuerte, pero no el mejor del grupo |
La lectura correcta no es que Mistral “gane todo”. No lo hace. La lectura interesante es que un modelo denso de 128B logra competir en varias pruebas con modelos mucho más grandes o con arquitecturas Mixture-of-Experts de cientos de miles de millones de parámetros totales. Para empresas, eso puede traducirse en una ecuación atractiva: menos complejidad de despliegue, coste más contenido y rendimiento suficiente para muchas tareas reales.
Agentes remotos: Mistral Vibe se mueve a la nube
La otra mitad del anuncio está en Vibe. Hasta ahora, buena parte de los agentes de programación han vivido en el portátil del desarrollador: una terminal, un repo local, permisos manuales y supervisión constante. Mistral quiere mover ese trabajo a la nube. Sus agentes remotos pueden lanzarse desde la CLI de Vibe o directamente desde Le Chat, trabajar en paralelo, mantener sesiones largas y avisar cuando terminan.
La idea encaja con una evolución clara del desarrollo con IA. El programador deja de mirar cada paso y pasa a revisar resultados: diffs, llamadas a herramientas, estados de progreso, preguntas del agente y, al final, una rama o una pull request. Mistral describe Vibe como una capa conectada con herramientas como GitHub, Linear, Jira, Sentry, Slack o Teams, con sesiones aisladas en sandbox y capacidad para ejecutar tareas como refactors, generación de tests, upgrades de dependencias, investigaciones de CI o corrección de bugs.
Los benchmarks agénticos frente a modelos anteriores de Mistral muestran saltos fuertes. En τ³-Telecom, Mistral Medium 3.5 alcanza 91,4 frente a 60,5 de Magistral Medium 1.2. En τ³-Airline sube a 72,0. En τ³-Retail llega a 76,1. En BrowseComp alcanza 48,6, lejos de algunos competidores en la comparativa ampliada, pero muy por encima de los modelos previos de Mistral.
| Benchmark agéntico | Mistral Medium 3.5 | Mejor modelo anterior de Mistral en la gráfica | Diferencia |
|---|---|---|---|
| τ³-Telecom | 91,4 | 60,5 | +30,9 |
| τ³-Airline | 72,0 | 53,5 | +18,5 |
| τ³-Retail | 76,1 | 70,2 | +5,9 |
| τ³-Banking | 13,4 | 7,7 | +5,7 |
| BrowseComp | 48,6 | 21,3 | +27,3 |
La prueba de banca sigue mostrando una dificultad clara para todos los modelos del gráfico. No todo está resuelto. Pero el salto frente a generaciones anteriores indica que Mistral ha mejorado justo donde ahora se juega parte del mercado: tareas largas, uso de herramientas, instrucciones complejas y workflows que no se resuelven con una respuesta de chat.
Comparativa con Claude Opus 4.7 y GPT-5.5 en Codex
La comparación con Claude Opus 4.7 y GPT-5.5 en Codex exige cuidado porque no todos publican exactamente los mismos benchmarks ni con los mismos harnesses. Aun así, sí permite ver tres filosofías distintas.
Claude Opus 4.7 es el modelo premium de Anthropic para tareas complejas, programación avanzada, visión de mayor resolución, análisis documental y agentes de larga duración. Anthropic lo ofrece a 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida, con ventana de contexto de 1 millón de tokens y nuevos niveles de esfuerzo como xhigh. Es un modelo propietario, muy orientado a Claude Code, flujos largos y calidad alta, pero con un coste por token claramente superior al de Mistral Medium 3.5.
GPT-5.5 en Codex es la apuesta de OpenAI para programación compleja, uso de ordenador, investigación y trabajo profesional. OpenAI lo recomienda como modelo principal en Codex para tareas difíciles y lo sitúa con ventana de contexto de 1 millón de tokens. En API, GPT-5.5 se ofrece a 5 dólares por millón de tokens de entrada y 30 dólares por millón de salida. Además, OpenAI publica resultados como 82,7 % en Terminal-Bench 2.0, 58,6 % en SWE-Bench Pro público y 84,9 % en GDPval.
Mistral Medium 3.5 juega otra carta: 1,5 dólares por millón de tokens de entrada y 7,5 dólares por millón de salida, pesos abiertos, 256k de contexto y posibilidad de autoalojamiento. No tiene la ventana de 1 millón de tokens de Claude Opus 4.7 o GPT-5.5, pero ofrece una relación coste-control-rendimiento muy distinta.
| Modelo | Tipo | Contexto | Precio API entrada / salida | Punto fuerte |
|---|---|---|---|---|
| Mistral Medium 3.5 | Denso 128B, pesos abiertos | 256k | 1,5 / 7,5 dólares por millón | Coste, autoalojamiento, agentes, código e instrucciones |
| Claude Opus 4.7 | Propietario | 1M | 5 / 25 dólares por millón | Tareas largas, Claude Code, visión, razonamiento y precisión |
| GPT-5.5 en Codex | Propietario | 1M | 5 / 30 dólares por millón | Codex, uso de ordenador, coding complejo y trabajo profesional |
La tabla deja ver por qué Mistral puede resultar atractiva para muchas empresas europeas. No necesita ganar todos los benchmarks para ser interesante. Si una organización puede desplegar un modelo de 128B en su propia infraestructura, controlar datos, ajustar costes y usarlo en agentes de desarrollo, investigación o soporte interno, la propuesta cambia. Ya no se trata solo de “cuál responde mejor”, sino de qué modelo se puede operar con menor dependencia externa.
El coste empieza a pesar tanto como el benchmark
La carrera de modelos ya no se entiende solo por puntuaciones. Los CFOs y CTOs miran cada vez más el coste real por tarea. Un agente de código no consume una sola respuesta: lee repositorios, ejecuta comandos, revisa errores, reintenta, modifica archivos, genera tests y abre una pull request. En ese flujo, el precio de salida y el número de tokens razonados pueden cambiar mucho la factura.
Claude Opus 4.7 y GPT-5.5 son modelos muy potentes, pero pertenecen a una categoría premium. Mistral Medium 3.5 apunta a un espacio diferente: suficiente rendimiento para producción, menor coste API y opción de despliegue propio. Para startups, proveedores europeos, empresas reguladas o equipos que quieren controlar datos, esa diferencia puede pesar más que unos puntos en un benchmark concreto.
También hay una lectura de soberanía tecnológica. Mistral es una empresa europea que está intentando ofrecer modelos de alto nivel sin obligar a trabajar siempre dentro de nubes estadounidenses o productos cerrados. En un momento en el que la discusión sobre IA soberana, privacidad, costes y dependencia tecnológica está subiendo a los consejos de administración, esa posición tiene valor.
No es solo un modelo: es una estrategia de producto
El lanzamiento de Medium 3.5 viene acompañado de Vibe remote agents y Work mode en Le Chat. Eso indica que Mistral no quiere quedarse en publicar pesos y esperar adopción de la comunidad. Quiere controlar también la experiencia: chat, agentes, CLI, ejecución remota, conectores, tareas largas y workflows empresariales.
Work mode en Le Chat va en esa dirección. Mistral lo presenta como un modo agéntico para tareas complejas: investigar, sintetizar, leer documentos, consultar correo, calendario o herramientas conectadas, preparar informes y ejecutar acciones con aprobación del usuario. Es un paso hacia asistentes que no solo responden, sino que trabajan durante más tiempo y coordinan varias herramientas.
Ahí es donde la competencia con Claude y Codex se vuelve más interesante. Anthropic tiene Claude Code y un posicionamiento muy fuerte en programación asistida. OpenAI tiene Codex, GPT-5.5 y una integración creciente con flujos de desarrollo, uso de ordenador y trabajo profesional. Mistral intenta entrar con una propuesta más abierta y más barata, pero también con producto propio.
La pregunta para los próximos meses será si Medium 3.5 consigue trasladar sus buenos resultados de benchmark a entornos reales: repositorios complejos, empresas con permisos estrictos, tareas largas, datos internos, agentes en paralelo y necesidades de auditoría. Si lo consigue, Mistral habrá encontrado un espacio propio entre el modelo cerrado premium y la alternativa open source de menor capacidad.
El mensaje de fondo es claro. La IA agéntica ya no se va a decidir solo por quién tiene el modelo más grande. También contará quién ofrece el mejor equilibrio entre rendimiento, coste, control, despliegue y producto. Y en esa ecuación, Mistral Medium 3.5 coloca a Europa en una posición más interesante de lo que parecía hace apenas unos meses.
Preguntas frecuentes
¿Qué es Mistral Medium 3.5?
Es un modelo denso de 128B parámetros de Mistral AI, con 256k de contexto, razonamiento configurable, capacidades de código e instrucciones, y pesos abiertos bajo una licencia MIT modificada.
¿Cómo se compara con Claude Opus 4.7?
Claude Opus 4.7 ofrece 1M de contexto y muy buen rendimiento en tareas largas y programación avanzada, pero es propietario y más caro por token. Mistral Medium 3.5 ofrece menor coste y posibilidad de autoalojamiento.
¿Cómo se compara con GPT-5.5 en Codex?
GPT-5.5 es el modelo recomendado por OpenAI para tareas complejas en Codex, con 1M de contexto y resultados fuertes en coding y uso de ordenador. Mistral compite con una propuesta más barata, abierta y autoalojable.
¿Por qué importa que sea de pesos abiertos?
Porque permite a empresas y desarrolladores desplegar, auditar y adaptar el modelo con más control que en modelos cerrados, especialmente en sectores regulados o con requisitos de soberanía de datos.
vía: mistral.ai












