Anthropic Claude Opus 4.5 es el nuevo rey de la IA: supera a Google Gemini 3 Pro y OpenAI GPT 5.1

La carrera por liderar la inteligencia artificial generativa vive un nuevo giro de guion. Durante unos días, Google pudo presumir de que Gemini 3 Pro marcaba el ritmo en muchos de los principales benchmarks. Pero Anthropic acaba de contraatacar con Claude Opus 4.5, un modelo que, según las pruebas publicadas por la compañía, se coloca por delante de Gemini 3 Pro y de GPT 5.1 de OpenAI en la mayoría de escenarios evaluados.

La fotografía que dejan estos tests es clara: Opus 4.5 domina 7 de las 10 pruebas, mientras que Gemini 3 Pro se queda con 2 y GPT 5.1 se impone en 1. Más allá de la batalla de marketing, el resultado confirma que el sector entra en una fase de competencia extrema, con mejoras medibles cada pocas semanas.


Un modelo híbrido con “pensamiento extendido” y control de esfuerzo

Anthropic presenta Claude Opus 4.5 como un modelo híbrido capaz de funcionar en dos modos principales:

  • Modo estándar, con tiempos de respuesta rápidos para la mayoría de tareas.
  • Modo de “pensamiento extendido”, en el que el modelo dedica más pasos de razonamiento interno para resolver problemas complejos, a costa de tardar algo más en responder.

A esto se suma un nuevo parámetro llamado “Esfuerzo”, que permite al usuario ajustar cuántos recursos dedica el modelo a una tarea concreta. En la práctica, es una forma de decidir si se quiere una respuesta “rápida y suficiente” o “más lenta pero más profunda”, algo especialmente útil en programación, análisis de código o resolución de problemas avanzados.

Además, Anthropic asegura que con esta versión se han reducido los costes: el precio anunciado es de 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida, por debajo de lo que costaban versiones previas de la gama Opus.


La tabla que corona a Opus 4.5: así queda frente a Sonnet, Gemini 3 Pro y GPT 5.1

La compañía ha publicado una batería de benchmarks que cubren desde programación “agéntica” hasta uso de herramientas, razonamiento visual o preguntas multilingües. A partir de la tabla oficial, este sería el resumen de resultados (en porcentaje de acierto):

Prueba / BenchmarkOpus 4.5Sonnet 4.5Opus 4.1Gemini 3 ProGPT 5.1
Agentic coding (SWE-bench Verified)80,9 %77,2 %74,5 %76,2 %76,3 %
Agentic terminal coding59,3 %50,0 %46,5 %54,2 %47,6 %
Agentic tool use (Retail)88,9 %86,2 %86,8 %85,3 %
Scaled tool use (MCP Atlas)62,3 %43,8 %40,9 %
Computer use (OSWorld)66,3 %61,4 %44,4 %
Novel problem solving (ARC-AGI-2)37,6 %13,6 %31,1 %17,6 %
Graduate-level reasoning (GPQA)87,0 %83,4 %81,0 %91,9 %88,1 %
Visual reasoning (MMMU)80,7 %77,8 %77,1 %85,4 %
Multilingual Q&A (MMMLU)90,8 %89,1 %89,5 %91,8 %91,0 %

Los números dejan varias conclusiones interesantes:

  • Claude Opus 4.5 domina claramente en capacidades “agénticas”: programación autónoma, uso de terminal, uso de herramientas y simulación de interacción con un ordenador.
  • En resolución de problemas novedosos (ARC-AGI-2 verificado), Opus 4.5 se distancia tanto de Sonnet 4.5 como de Gemini 3 Pro y GPT 5.1.
  • Gemini 3 Pro conserva el liderazgo en razonamiento a nivel de posgrado y en preguntas y respuestas multilingües, aunque con márgenes relativamente ajustados frente a GPT 5.1 y Opus 4.5.
  • GPT 5.1, por su parte, destaca en razonamiento visual, donde obtiene la mejor puntuación de la tabla.

Es decir, no hay un “ganador absoluto” en todo, pero sí un mensaje contundente: en las tareas donde la IA debe actuar como agente autónomo ―programar, usar herramientas, navegar por un sistema― Claude Opus 4.5 se sitúa en primera posición.


Por qué importa tanto el “agentic coding” y el uso de herramientas

Una de las tendencias más claras del último año es el paso de la IA que solo responde texto a la IA que toma acciones: escribe código, llama a APIs, navega por una interfaz, automatiza flujos de trabajo y coordina varias herramientas.

En ese contexto, métricas como agentic coding, agentic terminal coding o agentic tool use se vuelven cruciales porque miden:

  • La capacidad del modelo para entender un problema técnico y descomponerlo en pasos ejecutables.
  • Su habilidad para interactuar con un entorno real (terminal, navegador, aplicaciones internas) y no solo con lenguaje natural.
  • La robustez a la hora de continuar tareas largas, corregir errores y adaptarse cuando algo no sale como estaba previsto.

Que Opus 4.5 lidere de forma holgada estos apartados sugiere que Anthropic quiere posicionarlo como un modelo especialmente apto para agentes de IA complejos, asistentes de desarrollo o automatización de procesos empresariales, más allá del simple chatbot de conversación.


Gemini 3 Pro y GPT 5.1 no se quedan atrás

La victoria de Anthropic no implica que Google o OpenAI hayan quedado fuera del juego. La tabla deja claro que:

  • Gemini 3 Pro sigue siendo una referencia fuerte en razonamiento avanzado y en soporte de múltiples idiomas, dos áreas clave para aplicaciones académicas, legales o de negocio global.
  • GPT 5.1 mantiene el liderazgo en razonamiento visual, un campo que gana peso en tareas como análisis de documentos, comprensión de gráficos, lectura de interfaces o asistencia en entornos donde texto e imagen se combinan.

Lo relevante es que, por primera vez, los tres grandes del sector —OpenAI, Google y Anthropic— tienen modelos que se reparten el liderazgo según el tipo de tarea, con diferencias de solo unos puntos porcentuales en muchos casos.


Un mercado cada vez más fragmentado (y exigente)

Lo que hace unos años parecía ciencia ficción —modelos que escriben código, resuelven exámenes de posgrado o manejan un PC— se está convirtiendo en un terreno de competición milimétrico, donde cada décima de rendimiento cuenta.

Para los usuarios y las empresas, la consecuencia directa es que ya no basta con preguntar “qué modelo es mejor”, sino que hay que matizar:

  • ¿Qué tipo de tareas va a realizar la IA?
  • ¿Es más importante el razonamiento visual, el multilingüismo o la capacidad de actuar como agente autónomo?
  • ¿Qué peso tienen el coste por millón de tokens y la latencia de respuesta?

En ese contexto, Claude Opus 4.5 aparece como una opción especialmente atractiva para escenarios donde la IA no solo responde, sino que trabaja: automatiza procesos, programa, usa herramientas y se mueve con soltura por sistemas complejos.

Gemini 3 Pro y GPT 5.1, mientras tanto, siguen marcando el paso en otras áreas clave. Lo único seguro es que el mapa volverá a cambiar en pocos meses: en la carrera actual, el “nuevo rey de la IA” tiene el trono en permanente revisión.

Scroll al inicio