Gemini 3.5 Flash reta a Claude en MCP y cambia la carrera de los agentes

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Google DeepMind ha presentado Gemini 3.5 Flash con una promesa que va más allá de la velocidad. El nuevo modelo no se vende solo como una versión más rápida y barata de la familia Gemini, sino como una pieza pensada para ejecutar flujos de trabajo complejos con agentes, programación y uso de herramientas. Y ahí aparece el dato que ha llamado la atención de muchos desarrolladores: en MCP Atlas, un benchmark centrado en flujos de trabajo multi-step con Model Context Protocol, Gemini 3.5 Flash alcanza un 83,6 %.

La cifra tiene una lectura simbólica. MCP nació en el entorno de Anthropic como un estándar abierto para conectar asistentes de inteligencia artificial con sistemas externos, datos, herramientas y entornos de desarrollo. Google no solo lo adopta en sus evaluaciones, sino que sitúa a Gemini 3.5 Flash por delante de Claude Opus 4.7 en esa prueba concreta: 83,6 % frente a 79,1 %, según la tabla de benchmarks difundida por Google DeepMind.

El dato importante no está solo en la velocidad

Google presenta Gemini 3.5 Flash como su modelo más fuerte hasta ahora para agentes y programación. Según la compañía, supera a Gemini 3.1 Pro en Terminal-Bench 2.1, GDPval-AA y MCP Atlas, además de liderar en comprensión multimodal con CharXiv Reasoning. También afirma que es hasta cuatro veces más rápido que otros modelos de frontera en tokens de respuesta por segundo.

La velocidad importa, pero no explica todo. En modelos agénticos, la latencia condiciona cuántos pasos puede ejecutar un sistema antes de volverse caro o incómodo. Un agente no responde una sola vez: planifica, consulta herramientas, llama a APIs, lee documentos, ejecuta comandos, revisa errores y vuelve a intentarlo. Si cada paso tarda demasiado o cuesta demasiado, el caso de uso deja de ser práctico.

Por eso MCP Atlas es una fila especialmente relevante. El benchmark no mide únicamente conocimiento estático ni una respuesta aislada, sino la capacidad de completar flujos de trabajo con MCP. En la práctica, eso se acerca más a lo que muchas empresas quieren hacer con agentes: conectar modelos con herramientas reales y obtener resultados sin que el usuario tenga que dirigir cada paso manualmente.

Benchmark destacado	Gemini 3.5 Flash	Gemini 3.1 Pro	Claude Opus 4.7	GPT-5.5
Terminal-Bench 2.1	76,2 %	70,3 %	66,1 %	78,2 %
SWE-Bench Pro	55,1 %	54,2 %	64,3 %	58,6 %
MCP Atlas	83,6 %	78,2 %	79,1 %	75,3 %
OSWorld-Verified	78,4 %	76,2 %	78,0 %	78,7 %
CharXiv Reasoning	84,2 %	83,3 %	82,1 %	84,1 %
ARC-AGI-2	72,1 %	77,1 %	75,8 %	84,6 %

La tabla también obliga a matizar. Gemini 3.5 Flash no gana en todo. GPT-5.5 aparece por delante en Terminal-Bench 2.1, OSWorld-Verified, GDPval-AA, Blueprint-Bench 2, MRCR v2 y ARC-AGI-2. Claude Opus 4.7 lidera SWE-Bench Pro y Humanity’s Last Exam. La novedad no es que Google haya cerrado todos los debates, sino que un modelo Flash empieza a competir en zonas que hasta hace poco parecían reservadas a modelos más grandes y más caros.

MCP se convierte en campo de batalla

MCP se ha vuelto una pieza central en la nueva etapa de la inteligencia artificial. Anthropic lo presentó en 2024 como un estándar abierto para conectar asistentes de IA con los lugares donde viven los datos: repositorios, herramientas empresariales, bases de datos, entornos de desarrollo y aplicaciones internas. Su valor está en reducir la necesidad de crear integraciones a medida para cada modelo y cada herramienta.

Ese movimiento tenía sentido para Claude, especialmente en programación, análisis documental y automatización empresarial. Pero los estándares abiertos tienen una consecuencia inevitable: otros competidores pueden adoptarlos y ejecutarlos mejor. Eso es exactamente lo que sugiere la comparativa de MCP Atlas publicada por Google.

Para Anthropic, MCP sigue siendo una ventaja estratégica porque ha marcado el lenguaje de conexión entre modelos y herramientas. Para Google, hacerlo bien en MCP es una forma de enviar un mensaje a desarrolladores y empresas: Gemini no solo quiere responder preguntas, también quiere actuar dentro de flujos de trabajo reales.

La batalla de los agentes se jugará ahí. No bastará con que un modelo razone bien en un chat. Tendrá que usar herramientas sin romper el flujo, mantener contexto, interpretar errores, llamar a servicios externos y completar tareas largas. En ese terreno, la diferencia entre un 75 %, un 79 % y un 83 % no es solo una puntuación: puede traducirse en menos intervención humana, menos pasos fallidos y más automatización viable.

Google quiere llevar los agentes a escala

Gemini 3.5 Flash está disponible desde su lanzamiento en la aplicación Gemini, en el Modo IA del Buscador, en Google Antigravity, en la API de Gemini a través de Google AI Studio y Android Studio, y en Gemini Enterprise Agent Platform y Gemini Enterprise. Google también ha adelantado que trabaja en Gemini 3.5 Pro y que espera lanzarlo públicamente el próximo mes.

La presencia en Google Antigravity es importante. La compañía está empujando una plataforma de desarrollo orientada a agentes, donde subagentes colaborativos pueden trabajar sobre tareas complejas. En su comunicación, Google habla de flujos que antes podían llevar horas a un desarrollador o días a un auditor y que ahora pueden completarse en mucho menos tiempo con supervisión adecuada.

Ese último matiz es importante. Los agentes no eliminan la necesidad de supervisión. La desplazan. El usuario deja de escribir cada instrucción pequeña, pero debe revisar objetivos, permisos, resultados, trazabilidad y riesgos. En entornos empresariales, esto afecta a seguridad, cumplimiento, datos sensibles y responsabilidad sobre las acciones ejecutadas por el sistema.

La carrera que se abre tras Gemini 3.5 Flash no será solo de modelos. Será de plataformas completas: protocolos como MCP, entornos de desarrollo, conectores, observabilidad, seguridad, permisos, evaluación y coste por tarea completada. Google tiene una ventaja evidente en distribución, infraestructura y producto. Anthropic ha sido muy fuerte en experiencia de desarrollador, MCP y programación asistida. OpenAI, por su parte, mantiene una posición central en modelos, herramientas y adopción empresarial.

Gemini 3.5 Flash no cierra esa competencia, pero sí cambia el equilibrio. Que un modelo de la familia Flash supere a Claude Opus 4.7 en MCP Atlas tiene valor más allá del titular. Muestra que la frontera de la IA ya no se mide solo en razonamiento abstracto o en benchmarks académicos. Cada vez se mide más en tareas conectadas, uso de herramientas y capacidad para convertir una intención en una secuencia de acciones útiles.

La pregunta para los próximos meses será si Google consigue trasladar esas cifras a productos estables y workflows reales. Los benchmarks ayudan a ordenar la conversación, pero los desarrolladores juzgarán el modelo por otra vía: si falla menos, si llama mejor a las herramientas, si respeta permisos, si entiende proyectos grandes y si permite construir agentes que trabajen durante horas sin descontrolarse.

Preguntas frecuentes

¿Qué es Gemini 3.5 Flash?
Es el nuevo modelo de Google DeepMind dentro de la familia Gemini 3.5, diseñado para combinar velocidad con capacidades avanzadas en agentes, programación, multimodalidad y flujos de trabajo largos.

¿Por qué es importante MCP Atlas?
Porque mide flujos de trabajo multi-step usando MCP, un estándar abierto para conectar modelos de IA con herramientas y datos externos. Es una prueba cercana al uso real de agentes.

¿Gemini 3.5 Flash supera a Claude en MCP?
En la tabla publicada por Google DeepMind, Gemini 3.5 Flash obtiene un 83,6 % en MCP Atlas, por encima del 79,1 % atribuido a Claude Opus 4.7.

¿Gemini 3.5 Flash gana a todos los modelos en todos los benchmarks?
No. Lidera algunas pruebas importantes, pero GPT-5.5 y Claude Opus 4.7 aparecen por delante en otras. Su atractivo está en la combinación de rendimiento agéntico, velocidad y coste.

vía: blog.google