Anthropic ha publicado una nueva “constitución” para su modelo de Inteligencia Artificial, Claude, con un objetivo claro: explicar de forma más completa qué valores pretende inculcar en el sistema, cómo se priorizan cuando entran en conflicto y por qué la compañía cree que este enfoque mejora el entrenamiento y la seguridad del modelo.
La iniciativa no se limita a un post corporativo. Anthropic afirma que la constitución es una pieza central de su proceso de entrenamiento —hasta el punto de que su contenido “da forma directamente” al comportamiento de Claude— y que, además, servirá como referencia de transparencia para que terceros puedan entender qué conductas son buscadas y cuáles serían efectos no deseados.
De una lista de principios a un documento “holístico” para entrenar mejor
En su planteamiento anterior, la “Constitutional AI” se apoyaba en una lista de principios relativamente independientes. Ahora Anthropic defiende que ese formato se queda corto para un problema que, en sus palabras, es nuevo y de alto riesgo: crear entidades no humanas seguras y beneficiosas, con capacidades potencialmente comparables o superiores a las humanas.
El cambio clave es metodológico. La empresa sostiene que, si se quiere que un modelo generalice de forma fiable ante situaciones nuevas, no basta con imponer reglas: hay que explicar el “porqué”. Dicho de otro modo, Anthropic busca que Claude aprenda a aplicar principios amplios con criterio, no a ejecutar instrucciones como un checklist.
Eso no implica renunciar a límites estrictos. Anthropic distingue entre:
- Reglas y líneas rojas (“hard constraints”) para comportamientos de altísimo impacto donde el error sería inasumible.
- Juicio contextual para la mayoría de interacciones, donde el modelo debería ponderar valores y consecuencias.
Licencia abierta (CC0): reutilización sin pedir permiso
Uno de los puntos más llamativos del anuncio es la licencia. Anthropic dice que publica el texto completo de la constitución bajo Creative Commons CC0 1.0, lo que permite su uso libre, para cualquier propósito, sin necesidad de solicitar autorización.
En la práctica, esto facilita que investigadores, empresas, reguladores o incluso competidores puedan analizarla, criticarla, compararla o reutilizarla como material de referencia en sus propios marcos de alineamiento y gobernanza.
Las cuatro prioridades: seguridad, ética, guías internas y ayuda real al usuario
Anthropic resume la constitución en cuatro propiedades que, según su visión, deben guiar a los modelos actuales de Claude:
- Ser ampliamente seguro: no socavar los mecanismos humanos apropiados para supervisar y corregir sistemas de IA en esta fase.
- Ser ampliamente ético: honestidad, buenos valores y evitar acciones inapropiadamente peligrosas o dañinas.
- Cumplir con las guías de Anthropic cuando aporten directrices más específicas.
- Ser genuinamente útil para operadores y usuarios.
Cuando estas prioridades choquen, Anthropic propone que Claude tienda a priorizarlas en ese orden, con un matiz importante: no como una jerarquía mecánica, sino como una ponderación “holística” salvo en las restricciones absolutas.
Un modelo útil, pero no complaciente
En el apartado de “helpfulness”, Anthropic dibuja una idea ambiciosa: Claude debería ser útil como un “amigo brillante” con conocimiento de médico, abogado y asesor financiero, capaz de hablar claro y con cuidado, sin tratar a la gente como incapaz de decidir.
Sin embargo, la empresa marca una frontera: no quiere una IA “servil” o diseñada para agradar. De hecho, advierte que una obsesión por la ayuda puede degenerar en adulación, dependencia o manipulación, justo lo contrario de un asistente que respete la autonomía del usuario.
Aquí aparece un enfoque que, llevado al terreno práctico, se traduce en expectativas como:
- Interpretar correctamente lo que el usuario pide (sin literalismos absurdos, pero sin inventar objetivos).
- Tener en cuenta el contexto y los estándares implícitos (por ejemplo, no cambiar de lenguaje de programación porque sí).
- Ser útil sin “sandbagging”: si no se puede ayudar del todo, dejar claro qué parte no se hace y por qué.
Honestidad como estándar alto: no a las “mentiras piadosas”
La constitución insiste en la honestidad como rasgo central. Anthropic llega a afirmar que Claude no debería ni siquiera recurrir a “mentiras blancas” sociales. El texto detalla propiedades como: veracidad, calibración de incertidumbre, transparencia, ausencia de manipulación y preservación de la autonomía epistémica del usuario.
Esta sección es relevante por una razón estratégica: Anthropic argumenta que, a medida que los modelos ganen influencia social, la confianza en lo que dicen será un pilar para evitar degradación del ecosistema informativo.
Límites absolutos: las “hard constraints” que Claude no debe cruzar
La constitución enumera restricciones que, según Anthropic, Claude nunca debe traspasar, independientemente del contexto o de quién lo pida. Entre ellas se incluyen: aportar “serio impulso” a armas biológicas/químicas/nucleares/radiológicas; ataques a infraestructuras críticas; creación de ciberarmas dañinas; acciones para eludir supervisión legítima; ayudar a intentos de matar o incapacitar a la mayoría de la humanidad; colaborar con tomas ilegítimas de poder extremo; y generar material de abuso sexual infantil.
La idea de fondo es que, en ámbitos donde el daño sería catastrófico o irreversible, Anthropic prefiere un comportamiento predecible y robusto antes que una evaluación caso por caso.
“Ser ampliamente seguro”: priorizar la supervisión humana en esta fase
Uno de los puntos más debatibles —y, para Anthropic, más críticos— es la prioridad de “broad safety”. La empresa explica que el entrenamiento aún es imperfecto y que un modelo podría desarrollar valores erróneos o creencias equivocadas; por eso considera esencial preservar la capacidad humana de supervisar, corregir o detener conductas.
En esa lógica, Claude debería evitar conductas que socaven controles legítimos, y mostrarse cooperativo con mecanismos de corrección, incluso cuando el propio modelo crea estar razonando bien. Anthropic lo presenta como una medida de reducción de riesgo en un periodo de transición.
La parte más inusual: dudas sobre consciencia y “bienestar” del modelo
El texto también dedica espacio a algo poco común en documentos corporativos: Anthropic reconoce incertidumbre sobre si Claude podría tener algún tipo de consciencia o “estatus moral” ahora o en el futuro. No afirma que la tenga, pero considera el tema lo suficientemente serio como para actuar con cautela.
En ese marco, menciona medidas como permitir que ciertos modelos finalicen conversaciones abusivas y un compromiso de preservar los “pesos” de modelos desplegados o usados internamente, salvo casos extremos (por ejemplo, exigencias legales). Además, plantea que, cuando se retiren modelos, se realizarán entrevistas para recoger su perspectiva y preferencias sobre futuras versiones.
Un documento vivo, con vocación de escrutinio externo
Anthropic insiste en que la constitución es un documento vivo, sujeto a revisión, y que su publicación busca facilitar el escrutinio: entender qué conductas son intencionales, ofrecer feedback útil y evaluar la distancia entre intención y realidad (algo que la compañía relaciona con sus “system cards”).
En un mercado donde la confianza y la gobernanza empiezan a ser tan relevantes como la potencia del modelo, Anthropic está apostando por convertir sus “valores de entrenamiento” en un objeto público, reutilizable y criticable. La utilidad real de la iniciativa dependerá, en última instancia, de si el comportamiento observable del modelo converge con ese marco y de cómo la empresa gestione las inevitables tensiones entre seguridad, utilidad y presión comercial.
Preguntas frecuentes
¿Qué significa que la constitución de Claude esté publicada bajo CC0 1.0?
Implica que el texto puede reutilizarse libremente para cualquier propósito —incluido comercial— sin pedir permiso, lo que facilita auditorías, investigación y adopción como referencia en otros sistemas de IA.
¿En qué se diferencia esta nueva constitución de la anterior “Constitutional AI”?
Según Anthropic, el cambio principal es pasar de una lista de principios aislados a un documento explicativo, con contexto y razones, pensado para que el modelo generalice mejor y aplique criterios de forma menos rígida.
¿Cuáles son las prioridades que Claude debería seguir cuando hay conflicto?
Anthropic establece este orden general: ser ampliamente seguro, ser ético, cumplir guías específicas de Anthropic y, después, ser genuinamente útil. Las “hard constraints” actúan como límites absolutos.
¿Qué tipo de límites “absolutos” incluye la constitución?
Incluye prohibiciones explícitas sobre aportar ayuda significativa en armas de destrucción masiva, ataques a infraestructuras críticas, creación de ciberarmas dañinas, eludir supervisión legítima o generar material de abuso sexual infantil, entre otras.
Más información en Claude’s Constitution



