OpenAI introduce un nuevo enfoque de seguridad basado en recompensas por reglas

OpenAI ha desarrollado una innovadora metodología para mejorar la seguridad de sus modelos de inteligencia artificial, denominada Recompensas Basadas en Reglas (RBRs, por sus siglas en inglés). Este nuevo enfoque permite alinear el comportamiento de los modelos con estándares y políticas de seguridad específicas sin la intervención humana.

Un Cambio en la Evaluación de la IA

Anteriormente, la evaluación de las respuestas de los modelos de IA se realizaba mediante la puntuación humana, donde las respuestas eran valoradas según su precisión o preferencia. Este método resultaba ser costoso, consumía mucho tiempo y era susceptible a la subjetividad.

Eficiencia y Objetividad con RBRs

Con la introducción de las RBRs, los equipos de seguridad pueden establecer reglas claras para el modelo, y la propia IA puntuará sus respuestas según el grado de alineación con estas reglas. Este enfoque es más eficiente y elimina la subjetividad inherente a la evaluación humana.

Resultados Prometedores en las Pruebas

Durante las pruebas, los modelos de IA entrenados con RBRs mostraron una mejor adherencia a los estándares de seguridad y una reducción en las instancias de negarse incorrectamente a responder a un prompt, en comparación con aquellos entrenados mediante retroalimentación dirigida por humanos.

Desafíos y Consideraciones

Aunque las RBRs representan un avance significativo para asegurar que los modelos de IA se mantengan alineados con los protocolos de seguridad deseados—creando así modelos más seguros—OpenAI ha reconocido que este método, si bien puede reducir el tiempo de entrenamiento, los costos, la supervisión humana y la subjetividad, también podría incrementar el sesgo. Por lo tanto, los equipos de seguridad deben diseñar las RBRs con cuidado para «asegurar la equidad y la precisión» y considerar usarlas en conjunto con el enfoque tradicional basado en retroalimentación humana.

Este desarrollo subraya el compromiso de OpenAI con la innovación continua en la seguridad de la inteligencia artificial, buscando siempre mejorar la eficiencia y la objetividad en el entrenamiento de sus modelos.

Últimos artículos

Scroll al inicio