Claude Opus 4.7 llega con más autonomía para programar y revisar código

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Anthropic ha lanzado Claude Opus 4.7, su nuevo modelo de disponibilidad general y el sucesor directo de Opus 4.6. La compañía lo presenta como su modelo Opus más capaz hasta ahora para tareas complejas de ingeniería de software, razonamiento prolongado, uso de herramientas, visión y generación de entregables profesionales como interfaces, presentaciones y documentos. La mejora no llega como un simple salto incremental: Anthropic intenta posicionarlo como el modelo que los equipos pueden usar para delegar trabajo difícil durante más tiempo y con menos supervisión.

El lanzamiento se produce pocos días después de que Anthropic empezara a hablar con más claridad de Claude Mythos Preview, un modelo más potente pero todavía limitado por sus implicaciones en ciberseguridad. Opus 4.7 se sitúa en un punto intermedio: es menos capaz que Mythos Preview en varios benchmarks, pero está disponible de forma mucho más amplia y llega acompañado de nuevas salvaguardas para bloquear usos prohibidos o de alto riesgo en ciberseguridad.

Una mejora clara frente a Opus 4.6, sobre todo en desarrollo

La principal lectura del anuncio es que Opus 4.7 mejora de forma notable a Opus 4.6 en programación agéntica. En la tabla publicada por Anthropic, el nuevo modelo alcanza un 64,3% en SWE-bench Pro, frente al 53,4% de Opus 4.6 y el 57,7% de GPT-5.4. En SWE-bench Verified, Opus 4.7 sube hasta el 87,6%, frente al 80,8% de su predecesor y el 80,6% de Gemini 3.1 Pro.

La compañía insiste en que el avance se nota especialmente en tareas largas, donde el modelo debe explorar un código base, tomar decisiones, ejecutar herramientas, corregir fallos y verificar su propio trabajo antes de devolver una respuesta. Esa es la dirección que está tomando el mercado: menos chatbot conversacional y más agente capaz de trabajar durante horas en un repositorio, un análisis financiero, una investigación documental o una revisión técnica.

Anthropic también afirma que Opus 4.7 sigue mejor las instrucciones. Esto puede ser una ventaja, pero también obliga a revisar prompts y flujos ya existentes. Si un prompt antiguo era ambiguo y modelos anteriores lo interpretaban de forma flexible, Opus 4.7 puede ejecutarlo de manera más literal. Para equipos que usan Claude en producción, el cambio exige pruebas antes de migrar automatizaciones críticas.

Tabla comparativa de Claude Opus 4.7 frente a otros modelos

La siguiente tabla resume los datos principales de la comparativa mostrada por Anthropic. Deben leerse como benchmarks publicados por el proveedor, no como una medición independiente. En varios casos, las condiciones de prueba, el uso de herramientas o el arnés de evaluación no son idénticos entre modelos.

Evaluación	Claude Opus 4.7	Claude Opus 4.6	GPT-5.4	Gemini 3.1 Pro	Mythos Preview
Programación agéntica SWE-bench Pro	64,3%	53,4%	57,7%	54,2%	77,8%
Programación agéntica SWE-bench Verified	87,6%	80,8%	—	80,6%	93,9%
Programación en terminal Terminal-Bench 2.0	69,4%	65,4%	75,1%	68,5%	82,0%
Razonamiento multidisciplinar Humanity’s Last Exam, sin herramientas	46,9%	40,0%	42,7%	44,4%	56,8%
Razonamiento multidisciplinar Humanity’s Last Exam, con herramientas	54,7%	53,3%	58,7%	51,4%	64,7%
Búsqueda agéntica BrowseComp	79,3%	83,7%	89,3%	85,9%	86,9%
Uso escalado de herramientas MCP-Atlas	77,3%	75,8%	68,1%	73,9%	—
Uso agéntico de ordenador OSWorld-Verified	78,0%	72,7%	75,0%	—	79,6%
Análisis financiero agéntico Finance Agent v1.1	64,4%	60,1%	61,5%	59,7%	—
Reproducción de vulnerabilidades CyberGym	73,1%	73,8%	66,3%	—	83,1%
Razonamiento de posgrado GPQA Diamond	94,2%	91,3%	94,4%	94,3%	94,6%
Razonamiento visual CharXiv, sin herramientas	82,1%	69,1%	—	—	86,1%
Razonamiento visual CharXiv, con herramientas	91,0%	84,7%	—	—	93,2%
Preguntas multilingües MMMLU	91,5%	91,1%	—	92,6%	—

La tabla deja una fotografía bastante clara. Opus 4.7 supera a Opus 4.6 en casi todas las áreas relevantes, especialmente en programación, uso de herramientas, razonamiento visual y trabajo con ordenador. Sin embargo, no domina todos los frentes. GPT-5.4 conserva ventaja en BrowseComp, una evaluación orientada a búsqueda agéntica, y Mythos Preview aparece como un modelo superior en buena parte de las pruebas, aunque sigue sin estar ampliamente disponible.

Más visión, más control de esfuerzo y nuevo /ultrareview

Una de las mejoras técnicas más llamativas está en visión. Opus 4.7 puede procesar imágenes con hasta 2.576 píxeles en el lado largo, alrededor de 3,75 megapíxeles, más de tres veces la resolución de modelos Claude anteriores, según Anthropic. Esto tiene implicaciones directas para agentes que trabajan con capturas densas, interfaces, diagramas técnicos, documentación visual, diseños, presentaciones o análisis de pantallas.

En la API, Anthropic introduce un nuevo nivel de esfuerzo llamado xhigh, situado entre high y max. La idea es dar más control sobre la relación entre razonamiento, coste y latencia. Para problemas difíciles, la compañía recomienda empezar con high o xhigh, especialmente en casos de programación y agentes.

También llegan los task budgets, en beta pública para la API, que permiten orientar el gasto de tokens en tareas largas. Esta función es importante porque los agentes ya no se limitan a una única respuesta: pueden ejecutar ciclos de investigación, llamadas a herramientas, pruebas, revisiones y correcciones. Gestionar cuánto “presupuesto cognitivo” consume cada fase será cada vez más necesario en entornos empresariales.

En Claude Code, Anthropic añade el comando /ultrareview, diseñado para abrir una sesión dedicada de revisión que lee los cambios y marca errores, problemas de diseño y detalles que detectaría un revisor cuidadoso. Además, la compañía extiende el modo automático a usuarios Max, para que las tareas largas requieran menos interrupciones.

Ciberseguridad: Opus 4.7 como banco de pruebas antes de Mythos

El lanzamiento tiene una lectura importante en ciberseguridad. Anthropic explica que Opus 4.7 es el primer modelo donde prueba nuevas salvaguardas tras presentar Project Glasswing y advertir de los riesgos asociados a modelos más capaces como Mythos Preview. La compañía sostiene que Opus 4.7 no tiene capacidades ciber tan avanzadas como Mythos y que, durante su entrenamiento, experimentó con reducir diferencialmente esas capacidades.

Aun así, el modelo incorpora sistemas para detectar y bloquear solicitudes que indiquen usos prohibidos o de alto riesgo. Los profesionales de seguridad que quieran usarlo para investigación legítima, pentesting o red teaming pueden solicitar acceso a través del nuevo Cyber Verification Program.

La estrategia es prudente: Anthropic quiere aprender de la implementación real de salvaguardas en un modelo potente pero no extremo antes de abrir más ampliamente modelos de la clase Mythos. En un mercado donde OpenAI también está creando modelos más permisivos para defensores verificados, la ciberseguridad se está convirtiendo en uno de los campos donde más claramente se separará el acceso general del acceso profesional autenticado.

Mismo precio, pero ojo al tokenizador

Anthropic mantiene el precio de Opus 4.7 igual que el de Opus 4.6: 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida. El modelo está disponible en los productos de Claude, la API de Anthropic, Amazon Bedrock, Google Cloud Vertex AI y Microsoft Foundry.

Sin embargo, la migración no es completamente neutra en costes. Opus 4.7 usa un nuevo tokenizador que puede convertir el mismo input en entre 1,0 y 1,35 veces más tokens, según el tipo de contenido. Además, el modelo tiende a “pensar” más en niveles altos de esfuerzo, especialmente en tareas agénticas y turnos posteriores. La factura por token no sube, pero los equipos que tengan flujos intensivos deberán medir el consumo real antes de asumir que el coste total será idéntico.

La conclusión es que Opus 4.7 no es simplemente una versión más nueva. Es una pieza importante en la transición hacia modelos que trabajan de forma autónoma durante más tiempo, revisan sus propios resultados y se integran mejor en herramientas de desarrollo. Pero también marca el inicio de una etapa más compleja: más capacidad, más control de esfuerzo, más visión, más salvaguardas y más necesidad de medir costes y riesgos en producción.

Preguntas frecuentes

¿Qué es Claude Opus 4.7?

Claude Opus 4.7 es el nuevo modelo Opus de Anthropic de disponibilidad general. Está orientado a tareas avanzadas de programación, razonamiento, visión, uso de herramientas, análisis documental y flujos agénticos largos.

¿Claude Opus 4.7 es mejor que Claude Opus 4.6?

Sí, según los datos publicados por Anthropic, mejora de forma clara en programación agéntica, uso de herramientas, razonamiento visual, uso de ordenador y análisis financiero. También sigue mejor instrucciones y trabaja con imágenes de mayor resolución.

¿Claude Opus 4.7 supera a GPT-5.4?

Depende de la tarea. Opus 4.7 supera a GPT-5.4 en pruebas como SWE-bench Pro, MCP-Atlas, OSWorld-Verified y Finance Agent v1.1, pero GPT-5.4 conserva ventaja en BrowseComp y Terminal-Bench 2.0 según la tabla publicada por Anthropic.

¿Qué diferencia hay entre Claude Opus 4.7 y Mythos Preview?

Mythos Preview es más potente en varios benchmarks, especialmente en programación, ciberseguridad, terminal y razonamiento, pero su acceso sigue limitado. Opus 4.7 es menos capaz que Mythos, pero está disponible de forma general y se usa como banco de pruebas para nuevas salvaguardas.