Claude Sonnet 5 acerca las capacidades agénticas de Opus a un modelo más barato

Anthropic ha presentado Claude Sonnet 5, una nueva versión de su modelo intermedio que intenta ocupar un espacio cada vez más importante en la inteligencia artificial empresarial: modelos suficientemente capaces para ejecutar tareas largas con herramientas, pero con un coste más contenido que las familias más potentes. La compañía lo define como el Sonnet “más agéntico” hasta ahora, capaz de planificar, usar navegadores y terminales, trabajar con código y actuar de forma autónoma en tareas que hace pocos meses exigían modelos de mayor precio.

La lectura del lanzamiento es clara. Anthropic quiere que Sonnet vuelva a ser el modelo de referencia para agentes, programación y trabajo profesional a escala. Durante buena parte de la primera etapa de Claude, las versiones Sonnet fueron las que popularizaron el uso del modelo para desarrollo de software y herramientas. Después, las mejoras más visibles se desplazaron a la familia Opus. Sonnet 5 intenta cerrar esa distancia: no supera a Opus 4.8 en todo, pero se acerca lo suficiente en varias pruebas como para convertirse en una opción más eficiente para muchos usos diarios.

Más agente, más código y más uso de herramientas

Los datos publicados por Anthropic muestran un salto claro frente a Sonnet 4.6. En SWE-bench Pro, una evaluación centrada en programación agéntica, Sonnet 5 alcanza el 63,2 %, frente al 58,1 % de Sonnet 4.6. Opus 4.8 sigue por encima, con un 69,2 %, pero la diferencia se reduce. En Terminal-Bench 2.1, otra prueba vinculada a uso de terminal y ejecución de tareas técnicas, Sonnet 5 llega al 80,4 %, muy cerca del 82,7 % de Opus 4.8 y bastante por encima del 67 % de Sonnet 4.6.

La mejora también aparece en razonamiento multidisciplinar. En Humanity’s Last Exam, Sonnet 5 obtiene un 43,2 % sin herramientas y un 57,4 % con herramientas. Sonnet 4.6 queda en el 34,6 % y 46,8 %, respectivamente. Opus 4.8 marca un 49,8 % sin herramientas y un 57,9 % con herramientas, lo que deja a Sonnet 5 prácticamente empatado cuando puede apoyarse en herramientas externas.

EvaluaciónSonnet 5Sonnet 4.6Opus 4.8
SWE-bench Pro63,2 %58,1 %69,2 %
Terminal-Bench 2.180,4 %67,0 %82,7 %
Humanity’s Last Exam, sin herramientas43,2 %34,6 %49,8 %
Humanity’s Last Exam, con herramientas57,4 %46,8 %57,9 %
OSWorld-Verified81,2 %78,5 %83,4 %
GDPval-AA v21.6181.3951.615

El resultado práctico es que Sonnet 5 parece diseñado para tareas donde el modelo debe sostener un plan, usar herramientas y completar un flujo de principio a fin. Anthropic cita comentarios de clientes tempranos que destacan precisamente esa capacidad: investigar un bug, escribir una prueba de reproducción, implementar una corrección, verificarla y mantener el contexto sin quedarse a mitad de camino.

Para desarrolladores, esto apunta a un uso más realista de agentes de programación. No se trata solo de generar fragmentos de código, sino de trabajar sobre bases existentes, seguir convenciones, depurar, ejecutar comandos y llegar a cambios comprobables. Para empresas, la mejora puede ser igual de relevante en automatización de procesos, análisis de documentos, tareas legales, investigación interna o flujos que combinen varias herramientas.

Un modelo para ajustar coste y rendimiento

El precio es una parte central del anuncio. Claude Sonnet 5 ya está disponible en todos los planes y pasa a ser el modelo por defecto en Free y Pro. También llega a Max, Team, Enterprise, Claude Code y Claude Platform. En API se lanza con un precio introductorio de 2 dólares por millón de tokens de entrada y 10 dólares por millón de tokens de salida hasta el 31 de agosto de 2026. Después subirá a 3 y 15 dólares, respectivamente.

Anthropic señala que Sonnet 5 usa un nuevo tokenizer que puede hacer que el mismo contenido se traduzca en más tokens, aproximadamente entre 1,0 y 1,35 veces según el tipo de entrada. La compañía justifica el precio introductorio como una forma de hacer que la transición desde Sonnet 4.6 sea más neutra en costes.

Ese matiz importa. Los modelos agénticos suelen consumir muchos más tokens que una conversación normal. Cuando un agente planifica, lee archivos, usa herramientas, ejecuta comandos y revisa resultados, el coste puede crecer con rapidez. La propuesta de Sonnet 5 es permitir ajustar el nivel de esfuerzo según la tarea: no todo necesita Opus, pero tampoco todo puede resolverse con un modelo pequeño.

Anthropic insiste en que Sonnet 5 cubre un rango más amplio de opciones coste-rendimiento que Opus 4.8. En tareas de esfuerzo medio, la eficiencia mejora de forma notable; en esfuerzo alto, puede igualar a Opus 4.8 en algunos escenarios concretos.

Seguridad: mejor que Sonnet 4.6, pero no sin matices

La compañía también ha querido reforzar el mensaje de seguridad. Según sus evaluaciones previas al despliegue, Sonnet 5 muestra menos comportamientos no deseados que Sonnet 4.6 y resiste mejor intentos de uso malicioso o ataques de prompt injection en contextos agénticos. También reduce alucinaciones y complacencia excesiva frente a su predecesor.

El matiz está en la comparación con modelos más potentes. Anthropic reconoce que Sonnet 5 muestra una tasa algo mayor de comportamiento desalineado que Opus 4.8 y Mythos Preview en su auditoría automatizada. En la gráfica publicada por la compañía, Sonnet 5 obtiene una puntuación de 2,53 en comportamiento desalineado, frente a 2,89 de Sonnet 4.6, 2,10 de Opus 4.8 y 1,95 de Mythos Preview. En esa evaluación, una puntuación menor equivale a un resultado más seguro.

La parte de ciberseguridad también merece lectura cuidadosa. Anthropic afirma que no entrenó deliberadamente Sonnet 5 para tareas de ciberseguridad y que su capacidad para trabajos potencialmente peligrosos es mucho menor que la de Opus 4.8 y Mythos 5. En una evaluación de desarrollo de exploits para vulnerabilidades ya corregidas de Firefox, Sonnet 5 no logró generar exploits funcionales, aunque sí mostró una tasa de éxito parcial algo mayor que Sonnet 4.6.

Por ese motivo, Sonnet 5 se lanza con salvaguardas cibernéticas activadas por defecto. Son las mismas presentes en Claude Opus 4.7 y 4.8, aunque Anthropic señala que son menos estrictas que las aplicadas a Fable 5, un modelo sometido a controles más amplios por su perfil de riesgo.

La estrategia de Anthropic tras Fable 5

El lanzamiento de Sonnet 5 llega en un contexto delicado para Anthropic. La compañía acaba de recuperar el acceso global a Claude Fable 5 tras el levantamiento de controles de exportación por parte del Gobierno de Estados Unidos. Ese episodio puso sobre la mesa una tensión que afecta a todos los grandes laboratorios de IA: cómo lanzar modelos más capaces sin crear riesgos difíciles de controlar.

Sonnet 5 parece una respuesta más pragmática a ese dilema. No busca ser el modelo más potente de Anthropic, sino el más útil para un volumen amplio de tareas agénticas con coste razonable y salvaguardas activas. Es una pieza pensada para producción, no solo para demostrar liderazgo en benchmarks.

La apuesta encaja con la evolución del mercado. Las empresas no quieren únicamente modelos que respondan bien. Quieren sistemas que puedan seguir instrucciones largas, usar herramientas, moverse por entornos de trabajo, escribir código, consultar información y entregar resultados verificables. En ese terreno, el salto de Sonnet 5 puede ser más relevante que una mejora aislada en razonamiento.

La pregunta para los usuarios será cuándo elegir Sonnet 5 y cuándo pagar por Opus 4.8. Anthropic intenta dejar la respuesta en manos del nivel de esfuerzo. Para tareas diarias, automatización, programación sostenida y agentes de coste controlado, Sonnet 5 se coloca como candidato natural. Para trabajos donde la máxima capacidad importe más que el coste, Opus seguirá teniendo sentido.

Preguntas frecuentes

¿Qué es Claude Sonnet 5?
Es el nuevo modelo Sonnet de Anthropic, diseñado para mejorar el razonamiento, la programación, el uso de herramientas y las tareas agénticas frente a Sonnet 4.6.

¿Está disponible para todos los usuarios?
Sí. Anthropic indica que Sonnet 5 está disponible en todos los planes y es el modelo por defecto para usuarios Free y Pro.

¿Cuánto cuesta en API?
Tiene un precio introductorio de 2 dólares por millón de tokens de entrada y 10 dólares por millón de tokens de salida hasta el 31 de agosto de 2026. Después pasará a 3 y 15 dólares.

¿Es mejor que Opus 4.8?
No en todas las pruebas. Opus 4.8 sigue siendo más capaz en varias evaluaciones, pero Sonnet 5 se acerca en tareas importantes y ofrece una mejor relación coste-rendimiento para muchos usos.

¿Qué cambia en seguridad?
Anthropic afirma que Sonnet 5 reduce comportamientos no deseados frente a Sonnet 4.6 y se lanza con salvaguardas cibernéticas activadas por defecto, aunque no tiene las mismas restricciones ampliadas que Fable 5.

vía anthropic.com

Scroll al inicio