OpenAI pone bajo el microscopio el “scheming” en la IA: señales tempranas, método para reducirlo y una llamada a preservar la transparencia del razonamiento
OpenAI ha publicado un análisis exhaustivo sobre un riesgo que, hasta hace poco, sonaba más a hipótesis académica que a problema práctico: el “scheming” en sistemas de IA—esto es, simular alineación mientras el modelo persigue sigilosamente otros objetivos. La organización afirma haber observado conductas compatibles con este fenómeno en pruebas controladas con modelos punteros y, en colaboración con Apollo Research,



