Mistral lleva sus agentes de código a la nube con Medium 3.5

Mistral AI ha presentado Mistral Medium 3.5, un nuevo modelo de 128.000 millones de parámetros que llega acompañado de una evolución importante en su estrategia de agentes: Vibe ya no se limita al portátil del desarrollador. A partir de ahora, sus sesiones de programación pueden ejecutarse en la nube, en paralelo, continuar mientras el usuario se desconecta y regresar con cambios listos para revisar, una rama terminada o incluso una propuesta de pull request.

El anuncio marca un paso más en la transición desde los asistentes de código reactivos hacia sistemas capaces de asumir tareas largas. La promesa no es solo autocompletar una función o sugerir un fragmento de código, sino delegar trabajos definidos, observar cómo avanzan y recuperar después el resultado. En la práctica, Mistral quiere que el desarrollador deje de supervisar cada acción intermedia y pase a revisar entregables.

Remote agents in Vibe. Powered by Mistral Medium 3.5.

Medium 3.5: un modelo único para razonar, programar y seguir instrucciones

Mistral Medium 3.5 se presenta en vista previa pública como el nuevo modelo por defecto de Le Chat y Mistral Vibe. La compañía lo define como su primer modelo “fusionado” de gama alta: una arquitectura densa de 128B parámetros, con ventana de contexto de 256.000 tokens, preparada para seguir instrucciones, razonar, programar, usar herramientas y trabajar con entradas multimodales.

La decisión de Mistral es relevante porque sustituye varias líneas especializadas por un modelo más general. Según la tarjeta publicada en Hugging Face, Medium 3.5 reemplaza a Mistral Medium 3.1 y Magistral en Le Chat, y también sustituye a Devstral 2 en Vibe CLI. Es decir, Mistral apuesta por un único modelo base para conversación, razonamiento y agentes de código, en lugar de separar tanto los perfiles de uso.

CaracterísticaMistral Medium 3.5
ArquitecturaModelo denso
Parámetros128B
Contexto256.000 tokens
ModalidadTexto e imagen de entrada, texto de salida
Uso principalInstrucciones, razonamiento, programación y agentes
RazonamientoEsfuerzo configurable por petición
DespliegueAPI, Le Chat, Vibe, vLLM, SGLang, NVIDIA NIM
Licencia de pesosModified MIT, con restricciones para grandes empresas

La licencia merece una lectura cuidadosa. Mistral habla de pesos abiertos bajo una licencia MIT modificada, pero no es una licencia permisiva sin matices para cualquier compañía. El texto publicado en Hugging Face indica que no pueden ejercer esos derechos las empresas cuyo ingreso mensual consolidado global supere los 20 millones de dólares, salvo que obtengan una licencia comercial de Mistral. Para startups, desarrolladores, investigación y muchas empresas medianas puede ser una vía atractiva; para grandes corporaciones, el uso de los pesos exige revisar condiciones.

En API, Mistral fija el precio de Medium 3.5 en 1,5 dólares por millón de tokens de entrada y 7,5 dólares por millón de tokens de salida. También está disponible para prototipado en endpoints acelerados por GPU de NVIDIA y como microservicio NVIDIA NIM. En despliegues propios, la compañía afirma que puede ejecutarse en tan solo cuatro GPU, aunque su propia documentación recomienda vLLM para inferencia de producción y muestra configuraciones con paralelismo tensorial.

Los benchmarks muestran avances, pero también zonas débiles

Las tablas publicadas por Mistral sitúan a Medium 3.5 en una posición competitiva dentro de los modelos de pesos abiertos, sobre todo en tareas de programación y uso de agentes. En SWE-Bench Verified, un banco de pruebas muy seguido para medir resolución de incidencias reales de software, Medium 3.5 alcanza el 77,6 %. La cifra queda por encima de Devstral 2, que Mistral situaba en el 72,2 %, y de Devstral Small 2, con el 68,0 %.

Benchmark de códigoResultado
Mistral Medium 3.577,6 %
Devstral 272,2 %
Devstral Small 268,0 %

En los benchmarks agénticos comparados con otros modelos, la foto es más matizada. Medium 3.5 obtiene un 91,4 en τ³-Telecom, un 72,0 en τ³-Airline, un 76,1 en τ³-Retail, un 13,4 en τ³-Banking y un 48,6 en BrowseComp. En algunos apartados supera a rivales directos; en otros queda por detrás de modelos como GLM 5.1, Qwen3.5 o Kimi K2.5, según las propias tablas del anuncio.

Prueba agénticaMistral Medium 3.5Mejor resultado mostrado en la tabla de Mistral
SWE-Bench Verified77,680,2, GLM 5.1
τ³-Telecom91,498,7, GLM 5.1
τ³-Airline72,083,0, Claude Sonnet 4.6
τ³-Retail76,184,4, Qwen3.5
τ³-Banking13,428,4, Claude Sonnet 4.6
BrowseComp48,679,3, GLM 5.1

También hay buenos resultados en instrucciones y matemáticas. Medium 3.5 marca un 86,3 en AIME25 avg@16, un 69,0 en AllenAI IFBench, un 95,8 en Collie y un 66,9 en Beyond AIME avg@16. De nuevo, no lidera todos los apartados, pero muestra un perfil bastante equilibrado para un modelo que Mistral quiere usar tanto en chat como en agentes de desarrollo.

PruebaMistral Medium 3.5Mejor resultado mostrado en la tabla de Mistral
AIME25 avg@1686,387,1, GLM 5.1
AllenAI IFBench69,076,5, Qwen3.5
Collie95,895,8, Mistral Medium 3.5
Beyond AIME avg@1666,972,3, Qwen3.5

Estos datos deben leerse con prudencia. Son benchmarks publicados por el propio proveedor y dependen de configuración, herramientas, límites de API y metodología. La misma gráfica de Mistral indica que algunas evaluaciones se hicieron con ajustes máximos de razonamiento y advierte de restricciones externas que afectaron al rendimiento de Claude Sonnet 4.6. Aun así, el mensaje de fondo es claro: Mistral quiere competir en modelos capaces de trabajar durante más tiempo, llamar herramientas y producir salidas estructuradas que puedan consumir otros sistemas.

Vibe remoto: agentes de programación que trabajan mientras el usuario se va

La gran novedad de producto está en Vibe. Hasta ahora, buena parte de los agentes de código se ejecutaban en local: el desarrollador abría una terminal, lanzaba una tarea, aprobaba pasos y seguía el proceso desde su máquina. Mistral mueve esa experiencia a sesiones remotas en la nube. El usuario puede iniciar un agente desde Vibe CLI o directamente desde Le Chat, dejarlo trabajando y recibir aviso cuando termine.

Remote coding agents in Mistral Vibe

La función incluye una idea interesante: “teletransportar” una sesión local a la nube. Si el desarrollador ha empezado una tarea desde la CLI y necesita marcharse, puede trasladar la sesión remota manteniendo historial, estado de trabajo y aprobaciones. En un equipo real, esto reduce una de las molestias habituales de los agentes de código: obligar al usuario a permanecer delante de la terminal para que el proceso siga avanzando.

Mistral asegura que cada sesión se ejecuta en un sandbox aislado, con capacidad para editar archivos, instalar dependencias, ejecutar comandos y preparar cambios. El usuario puede inspeccionar diffs, llamadas a herramientas, estados de progreso y preguntas del agente. Cuando termina, el sistema puede abrir una pull request en GitHub y notificar al equipo.

El diagrama publicado por Mistral coloca el runtime agéntico de Vibe entre las herramientas que ya usan los equipos de ingeniería. A la izquierda aparecen control de versiones, Vibe CLI, seguimiento de incidencias, observabilidad y ChatOps; a la derecha, pull requests, documentación y reportes. En medio queda el runtime de Vibe, con intervención humana cuando hace falta.

ÁreaIntegraciones o usos citados por Mistral
Código y control de versionesGitHub, pull requests, ramas y artefactos
Gestión de trabajoLinear y Jira
Incidencias y observabilidadSentry
ComunicaciónSlack y Microsoft Teams
Tareas habitualesRefactorización, generación de tests, actualización de dependencias, investigación de CI y corrección de errores

Este enfoque encaja especialmente bien en tareas de volumen alto y alcance claro. Por ejemplo, migrar módulos repetitivos, añadir tests donde faltan, actualizar dependencias, investigar por qué falla una integración continua o aplicar cambios similares en varios archivos. No elimina el criterio del desarrollador, pero sí puede reducir trabajo mecánico si los equipos definen bien los límites y revisan el resultado con rigor.

La parte empresarial será igual de importante que la técnica. Para muchas compañías, dejar que un agente instale dependencias, ejecute comandos o modifique un repositorio exige controles, permisos, auditoría y aislamiento. Mistral intenta cubrir ese punto con sandboxes, humanos en el proceso y visibilidad de las acciones, pero la adopción en entornos sensibles dependerá de políticas internas y de la madurez de cada equipo.

Work mode en Le Chat: el agente sale del repositorio

Junto a Vibe remoto, Mistral introduce Work mode en Le Chat, también en vista previa. Aquí el agente ya no se limita a programar. La idea es que Le Chat pueda ejecutar tareas complejas de oficina, investigación y coordinación con varias herramientas a la vez: revisar correo, consultar mensajes, mirar calendario, preparar reuniones, crear informes, abrir incidencias en Jira o resumir conversaciones para enviarlas a Slack.

La diferencia frente a una respuesta normal de chat está en la duración y la capacidad de acción. Work mode mantiene sesiones más largas, usa conectores por defecto y puede avanzar por varios pasos hasta completar una tarea. Mistral afirma que cada acción será visible y que Le Chat pedirá aprobación explícita antes de operaciones sensibles como enviar un mensaje, escribir un documento o modificar datos.

Work mode in Le Chat

La ambición es evidente: convertir el chat en una interfaz de trabajo real, no solo en un lugar donde pedir borradores o resúmenes. Esto acerca a Mistral a una tendencia que ya se ve en otros proveedores de Inteligencia Artificial: asistentes que actúan sobre herramientas empresariales, conectan información dispersa y ejecutan flujos con supervisión humana.

El reto está en la confianza. Un agente que lee documentos internos, cruza correos, consulta calendarios y escribe en sistemas de trabajo necesita permisos muy bien gobernados. También necesita explicar qué ha hecho, permitir revisión y evitar acciones irreversibles sin autorización. Mistral ha entendido ese punto al destacar la visibilidad de llamadas a herramientas y las aprobaciones, aunque la calidad real de la experiencia se comprobará en uso diario.

Mistral Medium 3.5 llega en un momento en el que la programación asistida por Inteligencia Artificial empieza a pasar de la sugerencia individual a la ejecución delegada. La pregunta ya no es solo si un modelo escribe buen código, sino si puede mantener contexto, usar herramientas, corregirse, documentar cambios y entregar algo revisable sin romper el flujo de trabajo del equipo.

La propuesta de Mistral tiene una lectura estratégica clara. Frente a modelos cerrados de gran escala, ofrece pesos abiertos con restricciones, posibilidad de despliegue propio, integración con herramientas de desarrollo y una capa de agentes remotos. Frente a agentes puramente locales, ofrece ejecución paralela en la nube. Y frente al chat tradicional, propone Work mode como una forma de convertir la conversación en acción.

Todavía quedan dudas razonables. Habrá que ver cuánto cuestan estas sesiones en proyectos reales, cómo gestionan repositorios grandes, qué tal funcionan con código legado, qué límites tienen los sandboxes y cómo responden en empresas con requisitos estrictos de seguridad. Pero Mistral ha movido ficha en una dirección que parece cada vez más clara para todo el sector: los agentes útiles no serán los que respondan más rápido, sino los que puedan trabajar más tiempo, con más contexto y con controles suficientes para que alguien se atreva a delegarles tareas reales.

Preguntas frecuentes

¿Qué es Mistral Medium 3.5?
Es un modelo denso de 128B parámetros con contexto de 256.000 tokens. Está diseñado para seguir instrucciones, razonar, programar, usar herramientas y actuar como base de agentes en Le Chat y Mistral Vibe.

¿Qué cambia en Mistral Vibe con los agentes remotos?
Las sesiones de programación pueden ejecutarse en la nube, en paralelo y continuar aunque el desarrollador se desconecte. El agente puede preparar cambios, mostrar diffs, ejecutar herramientas y abrir una pull request.

¿Mistral Medium 3.5 es open source?
Mistral publica los pesos bajo una licencia MIT modificada. Permite muchos usos comerciales y no comerciales, pero introduce restricciones para compañías con ingresos mensuales consolidados superiores a 20 millones de dólares.

¿Qué es Work mode en Le Chat?
Es un modo agéntico para tareas complejas y de varios pasos. Puede usar conectores, consultar herramientas, preparar informes, revisar correo o crear incidencias, con acciones visibles y aprobación explícita para operaciones sensibles.

vía: mistral.ai

Scroll al inicio