Anthropic pide un “botón de emergencia” para la IA frontera

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Anthropic ha elevado el tono de su advertencia sobre el desarrollo de la inteligencia artificial más avanzada. La compañía, responsable de Claude, no plantea detener hoy la carrera de los grandes modelos, pero sí defiende que los principales laboratorios preparen un mecanismo coordinado, verificable y global para ralentizar o pausar temporalmente el desarrollo si los riesgos empiezan a superar la capacidad de control de la sociedad.

La idea no es nueva en el debate sobre IA, pero llega con más fuerza por el momento elegido. Los modelos ya no solo responden preguntas o ayudan a escribir código. Empiezan a participar de forma directa en el propio proceso de creación de nuevos sistemas de IA: programan, ejecutan pruebas, analizan resultados, corrigen errores y sugieren siguientes pasos. Anthropic lo resume en una expresión muy gráfica: qué ocurre cuando la IA empieza a construirse a sí misma.

La mejora recursiva deja de ser ciencia ficción lejana

La preocupación central es la llamada mejora recursiva. En términos sencillos, sería el punto en el que un sistema de IA puede contribuir de forma decisiva a diseñar, entrenar o mejorar sus propios sucesores con una intervención humana cada vez menor. Anthropic reconoce que ese escenario aún no ha llegado y que no es inevitable, pero sostiene que podría aparecer antes de que muchas instituciones estén preparadas.

En una publicación reciente titulada “When AI builds itself”, la compañía afirma que en mayo de 2026 más del 80 % del código integrado en su propia base de código fue escrito por Claude. Antes de que Claude Code se lanzara en vista previa de investigación, en febrero de 2025, esa cifra estaba en dígitos bajos. Anthropic también asegura que en el segundo trimestre de 2026 sus ingenieros integraban de media ocho veces más código que en 2024, aunque matiza que las líneas de código son una medida imperfecta de productividad.

El dato más inquietante no es solo la cantidad de código. Es el tipo de tareas que los modelos pueden completar de forma autónoma. Según Anthropic, la duración de las tareas que los sistemas de IA pueden resolver por sí mismos se está duplicando aproximadamente cada cuatro meses. Claude Opus 3 podía abordar en marzo de 2024 tareas equivalentes a unos cuatro minutos de trabajo humano; Claude Sonnet 3.7 llegó un año después a tareas de alrededor de hora y media; Claude Opus 4.6 habría alcanzado tareas de 12 horas. Si la tendencia continúa, las tareas de varios días podrían entrar en rango este año y las de semanas en 2027.

Señal observada	Dato citado por Anthropic	Lectura práctica
Código de Anthropic escrito por Claude	Más del 80 % del código integrado en mayo de 2026	La IA ya participa de forma masiva en el desarrollo interno
Productividad medida en líneas de código	8 veces más código por ingeniero en el segundo trimestre de 2026 frente a 2024	Indica aceleración, aunque no equivale directamente a calidad
Duración de tareas autónomas	Duplicación aproximada cada cuatro meses	Los modelos ganan capacidad para trabajar durante más tiempo sin intervención
Claude Opus 3	Tareas de unos 4 minutos en marzo de 2024	Punto de partida de la progresión reciente
Claude Sonnet 3.7	Tareas de alrededor de 1,5 horas un año después	Salto hacia trabajos más largos
Claude Opus 4.6	Tareas de unas 12 horas	Señal de autonomía operativa creciente
Claude Mythos Preview	METR lo situó en tareas de al menos 16 horas	El límite de evaluación empieza a quedarse corto
Prueba interna de optimización	De unos 3x en mayo de 2025 a unos 52x en abril de 2026	Anthropic lo presenta como comparación experimental, no como velocidad real de entrenamiento

Pausar solo no sirve si otros siguen corriendo

El planteamiento de Anthropic tiene una dificultad evidente. Una pausa unilateral apenas cambiaría la dinámica de fondo. Si un laboratorio se detiene y otro continúa, el incentivo competitivo seguiría intacto. La compañía sostiene por eso que cualquier medida útil tendría que ser coordinada entre varios laboratorios de frontera, con reglas claras sobre qué riesgo activa la pausa, quién lo verifica, cómo se comprueba el cumplimiento y bajo qué condiciones se reanuda el desarrollo.

Ahí está el gran problema. Entrenar modelos frontera no es tan visible como construir una central nuclear o desplegar infraestructura militar. Parte del trabajo puede ocultarse en centros de datos, acuerdos de cómputo, laboratorios privados o proyectos internos. Una pausa creíble exigiría mecanismos de auditoría, trazabilidad de entrenamientos, compromisos entre competidores y, probablemente, intervención pública.

Anthropic plantea el debate desde una posición incómoda. La empresa se presenta desde hace años como un laboratorio centrado en seguridad, pero al mismo tiempo sigue lanzando modelos cada vez más capaces y compitiendo por clientes, talento, capital e infraestructura. Reuters recuerda que la compañía suavizó en febrero una promesa relevante al señalar que ya no retendría necesariamente una IA potencialmente peligrosa si sus rivales estaban cerca de igualar esas capacidades.

La contradicción no es exclusiva de Anthropic. Afecta a toda la industria. Los laboratorios advierten de riesgos crecientes, pero continúan acelerando el desarrollo. Los gobiernos piden prudencia, pero también quieren liderazgo nacional. Los inversores financian la carrera porque esperan retornos enormes. Y las empresas adoptan IA porque temen quedarse atrás.

OpenAI defiende que la gobernanza debe ser pública

La posición de OpenAI va en una dirección distinta. La compañía ha defendido que las decisiones de gobernanza sobre IA frontera deben recaer en instituciones democráticas, no en pactos privados entre empresas. En su propuesta de junio de 2026, OpenAI plantea un marco federal para Estados Unidos, con instituciones duraderas de seguridad, supervisión, evaluación de modelos y planes de resiliencia ante riesgos de seguridad nacional y seguridad pública.

En su Frontier Governance Framework, publicado a finales de mayo de 2026, OpenAI incluye riesgos como ofensiva cibernética, amenazas CBRN, manipulación dañina y pérdida de control. También habla de informes sobre modelos, gestión de seguridad, respuesta a incidentes, revisión por expertos externos y actualizaciones del marco conforme evolucionen las capacidades.

La diferencia entre ambas visiones es relevante. Anthropic empuja la idea de un mecanismo coordinado de freno si la mejora recursiva se acerca demasiado. OpenAI insiste en que el marco debe articularse desde gobiernos democráticos y organismos públicos. En realidad, ambos enfoques podrían acabar necesitando encontrarse: la industria tiene la información técnica, pero los gobiernos tienen la legitimidad para imponer reglas.

El mercado no parece dispuesto a esperar

El debate de seguridad llega además en un momento de euforia financiera. Reuters informó de que Anthropic ha presentado de forma confidencial la documentación para una salida a bolsa en Estados Unidos. La compañía había alcanzado recientemente una valoración posinversión de 965.000 millones de dólares tras una ronda de 65.000 millones, según la misma agencia. Esa cifra sitúa a Anthropic en una dimensión casi inédita para una empresa privada.

Este contexto importa porque la seguridad de la IA no se debate en el vacío. Cada avance técnico afecta a valoraciones, contratos cloud, demanda de chips, empleo, software empresarial y expectativas de mercado. Una pausa coordinada tendría consecuencias económicas enormes, y por eso resulta tan difícil imaginarla sin presión regulatoria o sin un incidente que cambie de golpe la percepción del riesgo.

Anthropic tiene razón en una cosa: si la IA llega a participar de forma decisiva en el diseño de sus propios sucesores, los mecanismos actuales de control pueden quedarse cortos. La supervisión humana no desaparece de un día para otro, pero puede pasar de dirigir el proceso a validar resultados generados por una maquinaria cada vez más rápida. Ese cambio altera la relación entre investigación, seguridad y responsabilidad.

La pregunta ya no es solo si los modelos serán más inteligentes. Es si habrá instituciones, auditorías, normas y equipos capaces de seguirles el ritmo. Hoy la respuesta parece incompleta. Nadie quiere ser el primero en frenar mientras los demás avanzan, pero todos empiezan a entender que una carrera sin mecanismos de parada puede llevar a decisiones demasiado rápidas para ser gobernadas.

Preguntas frecuentes

¿Qué propone Anthropic sobre el desarrollo de IA?

Anthropic propone que los principales laboratorios de IA preparen un mecanismo coordinado y verificable para ralentizar o pausar temporalmente el desarrollo de modelos frontera si los riesgos aumentan demasiado.

¿Qué es la mejora recursiva en IA?

Es el escenario en el que un sistema de IA puede contribuir de forma decisiva a diseñar, entrenar o mejorar versiones futuras de sí mismo o de otros modelos, reduciendo cada vez más la intervención humana directa.

¿Anthropic pide detener ahora todos los modelos de IA?

No. La compañía no pide una pausa inmediata, sino tener preparado un mecanismo de emergencia que pueda activarse si los sistemas avanzan hacia capacidades difíciles de controlar.

¿Qué postura tiene OpenAI?

OpenAI defiende que la gobernanza de la IA frontera debe construirse desde instituciones democráticas y marcos públicos, con evaluaciones, supervisión independiente, gestión de riesgos y capacidad de actualización conforme evolucionen los modelos.