OpenAI Lanza o1-mini: Un Modelo Rentable que Potencia el Razonamiento en STEM

OpenAI ha anunciado el lanzamiento de o1-mini, un nuevo modelo de inteligencia artificial diseñado para ofrecer razonamiento eficiente en términos de costos. El o1-mini sobresale en áreas STEM, especialmente en matemáticas y programación, casi igualando el rendimiento de OpenAI o1 en evaluaciones como AIME y Codeforces.

Este nuevo modelo se presenta como una opción más rápida y rentable para aplicaciones que requieren razonamiento sin necesidad de un amplio conocimiento general. A partir de hoy, o1-mini estará disponible para usuarios de la API de nivel 5, a un costo un 80% menor que OpenAI o1-preview. Además, los usuarios de ChatGPT Plus, Team, Enterprise y Edu pueden utilizar o1-mini como alternativa a o1-preview, con límites de tasa más altos y menor latencia.

Optimizado para el Razonamiento en STEM

Los modelos de lenguaje de gran escala como o1 están preentrenados en vastos conjuntos de datos textuales, proporcionando un amplio conocimiento del mundo, pero pueden resultar costosos y lentos para aplicaciones prácticas. En contraste, o1-mini es un modelo más pequeño y optimizado para el razonamiento en STEM durante su preentrenamiento. Después de ser entrenado con el mismo riguroso proceso de aprendizaje por refuerzo de alto cómputo que o1, o1-mini logra un rendimiento comparable en numerosas tareas de razonamiento, siendo significativamente más eficiente en costos.

En evaluaciones que requieren inteligencia y razonamiento, o1-mini demuestra un rendimiento destacado en comparación con o1-preview y o1. Sin embargo, muestra un desempeño inferior en tareas que requieren conocimiento factual fuera del ámbito STEM.

Desempeño en Matemáticas y Programación

En la competencia de matemáticas de nivel secundario AIME, o1-mini obtuvo un 70% de aciertos, compitiendo de cerca con o1, que alcanzó un 74.4%, y superando ampliamente a o1-preview, que logró un 44.6%. Este resultado posiciona a o1-mini entre los aproximadamente 500 mejores estudiantes de secundaria en Estados Unidos.

En programación, o1-mini alcanzó una puntuación Elo de 1650 en la plataforma de competencias Codeforces, similar a los 1673 de o1 y superior a los 1258 de o1-preview. Este puntaje sitúa al modelo en el percentil 86 de los programadores que compiten en Codeforces. Además, o1-mini mostró un rendimiento sólido en el benchmark de codificación HumanEval y en desafíos de ciberseguridad de nivel secundario.

Velocidad y Eficiencia Mejoradas

Una ventaja clave de o1-mini es su velocidad. En pruebas comparativas, o1-mini proporcionó respuestas correctas a preguntas de razonamiento verbal entre 3 y 5 veces más rápido que GPT-4o y o1-preview, haciéndolo ideal para aplicaciones que requieren respuestas rápidas y precisas.

Compromiso con la Seguridad

El modelo ha sido entrenado utilizando las mismas técnicas de alineación y seguridad que o1-preview. o1-mini mostró un aumento del 59% en robustez contra intentos de eludir las normas de seguridad, conocidos como «jailbreaking», en comparación con GPT-4o. Antes de su implementación, OpenAI llevó a cabo evaluaciones de seguridad exhaustivas, aplicando el mismo enfoque de preparación, pruebas externas («red-teaming») y evaluaciones de seguridad que con o1-preview. Los detalles completos de estas evaluaciones están disponibles en la tarjeta del sistema asociada.

Limitaciones y Futuras Mejoras

Debido a su especialización en capacidades de razonamiento STEM, o1-mini tiene limitaciones en conocimiento factual en temas no relacionados con STEM, como fechas, biografías y datos triviales, siendo comparable en este aspecto a modelos de lenguaje más pequeños como GPT-4o mini. OpenAI tiene planes para mejorar estas limitaciones en futuras versiones y está explorando la posibilidad de extender el modelo a otras modalidades y especialidades fuera del ámbito STEM.

Con el lanzamiento de o1-mini, OpenAI continúa avanzando en su misión de desarrollar inteligencia artificial segura, capaz y accesible, proporcionando soluciones eficientes y especializadas que satisfacen las necesidades crecientes en tecnología y razonamiento.

fuente: OPenAI

Scroll al inicio