Claude Opus 4.8 sube la presión en los agentes de IA y la programación autónoma

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Anthropic ha presentado Claude Opus 4.8, una nueva versión de su modelo más avanzado orientada a tareas largas, programación agéntica, análisis complejo y uso de herramientas. La compañía lo describe como una actualización sobre Opus 4.7 con mejor criterio, más capacidad para reconocer incertidumbres y mayor autonomía en trabajos de varias fases.

El lanzamiento llega en un momento en el que los principales laboratorios de inteligencia artificial están desplazando el foco desde los chatbots conversacionales hacia sistemas capaces de trabajar como agentes: modelos que no solo responden, sino que planifican, usan herramientas, revisan resultados y ejecutan tareas durante más tiempo. En ese terreno, Anthropic intenta reforzar la posición de Claude como asistente para desarrolladores, analistas, equipos legales, financieros y empresas que necesitan flujos de trabajo más complejos que una simple respuesta textual.

Más rendimiento en coding, uso de ordenador y trabajo con conocimiento

Según los datos publicados por Anthropic, Claude Opus 4.8 mejora a Opus 4.7 en varias pruebas orientadas a tareas agénticas y trabajo profesional. En SWE-Bench Pro, centrado en programación agéntica, Opus 4.8 alcanza el 69,2 %, frente al 64,3 % de Opus 4.7, el 58,6 % de GPT-5.5 y el 54,2 % de Gemini 3.1 Pro, siempre de acuerdo con la comparativa facilitada por la propia compañía.

En OSWorld-Verified, una prueba vinculada al uso agéntico del ordenador, Opus 4.8 obtiene un 83,4 %, ligeramente por encima del 82,9 % de Opus 4.7 y por delante del 78,7 % atribuido a GPT-5.5 y el 76,2 % de Gemini 3.1 Pro. En GDPval-AA, una evaluación de tareas de conocimiento, Anthropic sitúa a Opus 4.8 con 1.890 puntos, frente a 1.753 de Opus 4.7, 1.769 de GPT-5.5 y 1.314 de Gemini 3.1 Pro.

La lectura debe hacerse con prudencia. Los benchmarks ayudan a comparar tendencias, pero no sustituyen pruebas reales en entornos de producción. Además, las cifras proceden de Anthropic y conviene interpretarlas como resultados publicados por el proveedor, no como una validación independiente universal. Aun así, reflejan una dirección clara: los modelos empiezan a competir cada vez más en tareas largas, con herramientas, terminal, navegador, repositorios y documentación empresarial.

Prueba publicada por Anthropic	Opus 4.8	Opus 4.7	GPT-5.5	Gemini 3.1 Pro
SWE-Bench Pro	69,2 %	64,3 %	58,6 %	54,2 %
Terminal-Bench 2.1	74,6 %	66,1 %	78,2 %	70,3 %
Humanity’s Last Exam, sin herramientas	49,8 %	46,9 %	41,4 %	44,4 %
Humanity’s Last Exam, con herramientas	57,9 %	54,7 %	52,2 %	51,4 %
OSWorld-Verified	83,4 %	82,9 %	78,7 %	76,2 %
GDPval-AA	1.890	1.753	1.769	1.314
Finance Agent v2	53,9 %	51,5 %	51,8 %	43,0 %

La única prueba de la tabla en la que Opus 4.8 no aparece por delante es Terminal-Bench 2.1, donde Anthropic sitúa a GPT-5.5 con un 78,2 %, frente al 74,6 % de Opus 4.8. Ese matiz es relevante porque evita una lectura simplista del lanzamiento: el nuevo modelo no domina todas las categorías, pero mejora a su predecesor en las áreas que Anthropic destaca como prioritarias.

La honestidad del modelo como argumento técnico

Una de las mejoras que Anthropic subraya no tiene que ver solo con puntuaciones, sino con comportamiento. La compañía asegura que Opus 4.8 es más propenso a reconocer incertidumbres, señalar problemas en su propio trabajo y evitar afirmaciones no respaldadas. En sus evaluaciones internas, Anthropic afirma que el nuevo modelo es unas cuatro veces menos propenso que Opus 4.7 a dejar pasar sin comentario fallos en el código que ha escrito.

Este punto importa especialmente en programación y análisis técnico. Un modelo que comete errores pero los presenta con seguridad puede generar más trabajo del que ahorra. En cambio, un asistente que indica cuándo no tiene suficiente evidencia, cuándo una prueba no ha sido concluyente o cuándo un cambio puede romper una dependencia resulta más útil en entornos reales.

La mejora también encaja con el uso de Claude Code, el entorno de Anthropic para programación asistida. Los testimonios recogidos por la compañía apuntan a un modelo más fiable al explorar bases de código complejas, formular preguntas antes de hacer cambios grandes y revisar sus propias decisiones. De nuevo, son valoraciones de socios y probadores tempranos seleccionados por Anthropic, pero encajan con una preocupación extendida entre desarrolladores: la IA ayuda más cuando no se limita a producir código, sino que entiende el contexto, advierte riesgos y no fuerza una solución dudosa.

Dynamic workflows y más control del esfuerzo

Opus 4.8 llega acompañado de nuevas funciones en el ecosistema Claude. La más llamativa para desarrolladores es dynamic workflows, disponible en vista previa de investigación dentro de Claude Code para planes Enterprise, Team y Max. Esta función permite al modelo planificar trabajos grandes y ejecutar cientos de subagentes en paralelo durante una misma sesión, para después verificar resultados antes de informar al usuario.

Anthropic pone como ejemplo migraciones de código a escala de repositorio, incluso sobre cientos de miles de líneas, con la suite de pruebas existente como referencia. Es una ambición que conecta con una tendencia cada vez más visible: la programación asistida por IA está dejando de limitarse a completar funciones o corregir errores aislados y empieza a entrar en tareas de mantenimiento, refactorización, migración y revisión a gran escala.

La compañía también introduce controles de esfuerzo en claude.ai y Claude Cowork. El usuario puede decidir cuánto trabajo interno debe dedicar el modelo a una respuesta. En niveles altos, Claude piensa más y consume más tokens; en niveles bajos, responde más rápido y gasta menos límites de uso. Opus 4.8 usa por defecto un nivel alto de esfuerzo, que Anthropic considera el mejor equilibrio entre calidad y experiencia de usuario.

Para desarrolladores, otra novedad relevante está en la API Messages, que ahora acepta entradas de sistema dentro del array de mensajes. Esto permite actualizar instrucciones del modelo en mitad de una tarea sin romper la caché del prompt ni tener que introducir el cambio como si fuera un turno de usuario. En agentes de larga duración, esta capacidad puede servir para modificar permisos, presupuestos de tokens o información del entorno mientras el sistema sigue trabajando.

Precio, disponibilidad y la sombra de modelos más potentes

Claude Opus 4.8 ya está disponible en claude.ai, Claude Code y la API de Anthropic. El precio de uso regular se mantiene respecto a Opus 4.7: 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida. El modo rápido, que permite trabajar hasta 2,5 veces más deprisa según Anthropic, queda en 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida, y la compañía afirma que es tres veces más barato que en modelos anteriores.

El lanzamiento no se presenta como una ruptura radical, sino como una mejora tangible sobre Opus 4.7. Anthropic reconoce que trabaja en modelos capaces de ofrecer prestaciones similares a Opus a menor coste y también anticipa una nueva clase de modelos con más inteligencia que Opus. Dentro del proyecto Glasswing, algunas organizaciones ya estarían usando Claude Mythos Preview para tareas de ciberseguridad, aunque la compañía afirma que este tipo de modelos requiere salvaguardas adicionales antes de una disponibilidad general.

Para el mercado tecnológico, Opus 4.8 deja dos mensajes. El primero es que la carrera de los modelos ya no se mide solo por razonamiento general o generación de texto, sino por su capacidad para actuar como colaboradores persistentes en tareas complejas. El segundo es que la autonomía necesita controles más finos: gestión del esfuerzo, verificación, honestidad sobre el progreso, permisos actualizables y mecanismos para coordinar subagentes.

La IA agéntica empieza a entrar en una fase más práctica. Las empresas no solo preguntan qué modelo responde mejor, sino cuál puede trabajar más tiempo, equivocarse menos de forma peligrosa, integrarse con herramientas reales y producir resultados auditables. Opus 4.8 es una actualización incremental, pero apunta de lleno a esa batalla.

Preguntas frecuentes

¿Qué es Claude Opus 4.8?
Claude Opus 4.8 es la nueva versión del modelo Opus de Anthropic, orientada a programación, razonamiento, uso de herramientas, análisis y tareas agénticas de larga duración.

¿Qué mejora frente a Claude Opus 4.7?
Según Anthropic, mejora en varios benchmarks, trabaja mejor en tareas agénticas, reconoce mejor sus incertidumbres y es menos propenso a dejar pasar errores en código sin advertirlos.

¿Cuánto cuesta Claude Opus 4.8?
El precio regular se mantiene en 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida. El modo rápido cuesta 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida.

¿Qué son los dynamic workflows de Claude Code?
Son una nueva función en vista previa que permite a Claude planificar tareas grandes, lanzar múltiples subagentes en paralelo y verificar resultados antes de entregar una respuesta.

vía: anthropic