OpenAI ha presentado FrontierScience, un nuevo benchmark diseñado para evaluar hasta qué punto los modelos de Inteligencia Artificial son capaces de realizar razonamiento científico de nivel experto en física, química y biología. La iniciativa llega en un momento en el que las grandes tecnológicas compiten por demostrar que sus sistemas no solo responden preguntas, sino que pueden acelerar tareas reales de investigación, desde el análisis de literatura hasta el trabajo con problemas matemáticos complejos.
El anuncio, fechado el 16 de diciembre de 2025, se apoya en una idea clara: si la IA aspira a aportar valor a la ciencia, necesita algo más que memoria enciclopédica. Debe formular hipótesis, refinar explicaciones, encadenar inferencias y sintetizar conceptos entre disciplinas. Y, sobre todo, debe poder medirse con pruebas que no se queden pequeñas demasiado rápido.
Dos “pistas”: Olympiad y Research
FrontierScience se divide en dos recorridos. El primero, FrontierScience-Olympiad, intenta capturar el tipo de razonamiento “de competición”: problemas exigentes, con respuesta corta y verificable, diseñados para medir si un modelo puede resolver preguntas teóricas difíciles con rigor. El segundo, FrontierScience-Research, es el más ambicioso: busca aproximarse a tareas que un científico con doctorado podría encontrarse en su trabajo, con subtareas de varios pasos y evaluación por rúbrica.
Según OpenAI, la evaluación completa reúne más de 700 preguntas textuales, aunque el “gold set” (el conjunto principal de evaluación) contiene 160: 100 en Olympiad y 60 en Research. Para construir el benchmark han colaborado 42 expertos con medallas en olimpiadas internacionales (un total de 109 medallas) y 45 científicos (doctorandos, postdocs o profesores) para la parte de investigación.
Resultados: avances claros, pero con un techo visible
En las pruebas iniciales presentadas por OpenAI, GPT-5.2 aparece como el modelo con mejor desempeño en ambos recorridos: 77 % en Olympiad y 25 % en Research. En la práctica, el contraste entre ambas cifras se interpreta como una señal doble: por un lado, los modelos actuales ya resuelven con solvencia parte del razonamiento científico “cerrado”; por otro, todavía les cuesta sostener tareas abiertas de investigación con la calidad y fiabilidad que exigiría un entorno real.
OpenAI también compara el salto de dificultad con benchmarks anteriores como GPQA, publicado en noviembre de 2023. En ese test, el mejor baseline de GPT-4 se situaba en torno al 39 %, mientras que el rendimiento de expertos humanos se movía aproximadamente entre 65 % y 70 % según la referencia (la propia publicación original y el resumen de OpenAI usan cifras ligeramente distintas). Dos años después, OpenAI afirma que GPT-5.2 alcanza el 92 % en GPQA, lo que refuerza la tesis de que los tests “clásicos” se saturan rápido y obligan a inventar nuevas formas de medir.
Cómo se puntúa: respuestas cortas y rúbricas de 10 puntos
La diferencia clave de FrontierScience no es solo la dificultad, sino el método de evaluación. En Olympiad, la corrección es más directa: respuestas numéricas, expresiones o coincidencias de texto “flexibles”, lo que facilita comprobar si está bien o mal. En Research, OpenAI introduce una arquitectura de rúbrica: cada problema tiene criterios desglosados que suman 10 puntos, y una respuesta se considera correcta si obtiene al menos 7/10.
Para escalar el proceso, las respuestas se puntúan con un evaluador automático basado en GPT-5, algo que la propia compañía presenta como un compromiso entre rigor y viabilidad (corregir todo con expertos humanos sería inviable a gran escala). Aun así, OpenAI reconoce límites: las rúbricas son menos “objetivas” que una respuesta final única y, por definición, parte del juicio se traslada al sistema de evaluación.
Un benchmark pensado también para evitar “contaminación” y medir el progreso real
OpenAI explica que, durante la creación, se aplicó un filtro particular: se descartaron tareas que sus modelos internos resolvían correctamente, lo que hace que la prueba pueda quedar sesgada en contra de sus propios sistemas frente a otros. Además, para combatir la “contaminación” (que el modelo haya visto preguntas durante el entrenamiento), OpenAI publica en abierto el gold set de Olympiad y Research, pero mantiene otras preguntas reservadas para seguir midiendo a futuro con menor riesgo de filtraciones.
Qué significa para la ciencia: utilidad real, pero supervisada
El mensaje de fondo es prudente: FrontierScience sugiere que los modelos ya pueden ayudar en partes del trabajo científico que exigen razonamiento estructurado, pero todavía no sustituyen el criterio humano para definir el problema, validar resultados y decidir qué es relevante. OpenAI insiste en que el “benchmark definitivo” será la capacidad de contribuir a descubrimientos novedosos, algo que una prueba escrita solo puede anticipar parcialmente.
En paralelo, la compañía encuadra este lanzamiento en una línea de trabajos recientes, como el paper Early science acceleration experiments with GPT-5 (noviembre de 2025), donde se describen casos en los que modelos de frontera aceleran flujos científicos y, en algunos ejemplos, ayudan a avanzar en problemas que después verifican expertos.
Preguntas frecuentes
¿Qué es FrontierScience y para qué sirve en investigación científica con IA?
Es un benchmark de OpenAI para medir razonamiento científico avanzado en física, química y biología, con un recorrido tipo “olimpiada” y otro orientado a tareas de investigación evaluadas por rúbrica.
¿Por qué GPT-5.2 saca 77 % en Olympiad pero solo 25 % en Research?
Porque el primer recorrido se basa en problemas cerrados con verificación más directa, mientras que el segundo evalúa subtareas abiertas y multietapa donde es más fácil cometer errores de razonamiento, interpretación o factualidad.
¿Cómo se corrigen las respuestas de FrontierScience-Research?
Con una rúbrica de 10 puntos por tarea; se considera correcta una solución que alcance al menos 7/10, y la corrección se escala mediante un evaluador automático basado en GPT-5.
¿Qué relación tiene FrontierScience con GPQA y otros benchmarks científicos?
OpenAI lo presenta como una respuesta a la saturación de benchmarks previos: GPQA se publicó en 2023 y mostraba una brecha grande entre modelos y expertos; ahora la compañía afirma que GPT-5.2 llega al 92 % en GPQA, lo que obliga a crear pruebas más difíciles y centradas en ciencia.
vía: openai




