GPT-5.2: OpenAI sube el listón de la IA profesional con más contexto, mejor código y menos errores

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

OpenAI ha presentado GPT-5.2, su nueva familia de modelos de inteligencia artificial, con una promesa clara: acercarse todavía más al rendimiento de un experto humano en tareas profesionales reales y hacerlo a escala industrial. La compañía asegura que GPT-5.2 mejora de forma notable la creación de hojas de cálculo y presentaciones, la escritura de código, la interpretación de imágenes y la comprensión de contextos muy largos, además del uso de herramientas y agentes para trabajos complejos de varios pasos.

El lanzamiento arranca en ChatGPT para los planes de pago (Plus, Pro, Business y Enterprise), con tres variantes principales —Instant, Thinking y Pro— y ya está disponible también a través de la API para desarrolladores.

Un modelo que rinde como un experto humano (o mejor) en 44 profesiones

El corazón del anuncio está en los resultados de GDPval, una evaluación interna que mide tareas de trabajo del conocimiento en 44 ocupaciones, desde finanzas y fiscalidad hasta atención sanitaria o marketing. Según OpenAI, GPT-5.2 Thinking iguala o supera a profesionales de la industria en el 70,9 % de las comparaciones, produciendo artefactos reales como presentaciones, hojas de cálculo, horarios, diagramas o incluso vídeos cortos.

Además de la calidad, la compañía subraya la eficiencia: en estas tareas, el modelo habría generado resultados más de 11 veces más rápido y a menos del 1 % del coste de un experto humano, siempre bajo la premisa de que el trabajo final debe pasar por supervisión y validación humana.

En una evaluación interna centrada en modelos financieros para analistas junior de banca de inversión —como construir modelos de tres estados financieros o simulaciones de compras apalancadas—, GPT-5.2 Thinking obtuvo una puntuación media un 9,3 % superior a GPT-5.1 (del 59,1 % al 68,4 %).

Mejor código y menos “alucinaciones”

En el terreno de la ingeniería de software, GPT-5.2 Thinking establece un nuevo máximo del 55,6 % en SWE-Bench Pro, un benchmark que evalúa la capacidad del modelo para generar parches de código en repositorios reales, abarcando cuatro lenguajes de programación. En SWE-Bench Verified, más centrado en Python, alcanza el 80,0 % de aciertos.

Los primeros evaluadores citados por OpenAI destacan también mejoras en desarrollo front-end y en interfaces complejas, incluyendo elementos 3D, lo que refuerza el papel de GPT-5.2 como asistente para ingenieros full stack en proyectos cotidianos.

Sobre la fiabilidad general, la compañía afirma que GPT-5.2 Thinking “alucina” menos que GPT-5.1: en un conjunto de consultas anonimizadas de ChatGPT, las respuestas con errores se redujeron en torno a un 38 % relativo. En la práctica, esto debería traducirse en menos fallos en tareas de redacción, análisis y apoyo a la toma de decisiones.

Contexto ultralargo y visión más precisa

Otro de los grandes saltos de GPT-5.2 está en la comprensión de contextos largos. En la evaluación interna MRCRv2, que mide la capacidad de integrar información dispersa en documentos muy extensos, GPT-5.2 Thinking roza el 100 % de precisión en escenarios con hasta 256 000 tokens en la variante de “4 agujas”, y mantiene resultados claramente superiores a GPT-5.1 en múltiples rangos de longitud hasta 256 000 tokens.

Esto abre la puerta a flujos de trabajo reales como:

análisis profundo de informes, contratos o papers largos,
síntesis de proyectos repartidos en muchos archivos,
y uso intensivo de herramientas y agentes sin perder el hilo de la conversación.

Para ir incluso más allá de la ventana de contexto estándar, GPT-5.2 Thinking es compatible con un nuevo endpoint /responses/compact, que extiende en la práctica el contexto efectivo en entornos con muchas herramientas y pasos encadenados.

En visión, GPT-5.2 Thinking reduce aproximadamente a la mitad las tasas de error en tareas que combinan texto e imagen, como lectura de gráficos, comprensión de paneles de control, interfaces de software o diagramas técnicos. También mejora la capacidad de entender la disposición espacial de elementos, algo clave para identificar componentes en placas base, analizar maquetas de producto o interpretar capturas de aplicaciones complejas.

Herramientas, agentes y flujos de trabajo de múltiples pasos

El nuevo modelo también avanza en el uso de herramientas y agentes. En Tau2-Bench Telecom, una evaluación de flujos largos con llamadas a herramientas en varios turnos, GPT-5.2 Thinking alcanza un 98,7 %, por encima de GPT-5.1. En pruebas como BrowseComp o Toolathlon también muestra mejoras significativas en escenarios donde debe combinar varias fuentes y acciones para resolver un caso de principio a fin.

En la práctica, esto se traduce en:

casos de atención al cliente donde el modelo debe consultar sistemas, reprogramar viajes, gestionar compensaciones o aplicar reglas internas;
automatización de tareas administrativas con llamadas a múltiples APIs;
orquestación de agentes especializados que colaboran en un mismo problema.

GPT-5.2 Pro y GPT-5.2 Thinking incorporan además un nuevo nivel de razonamiento xhigh en la API, pensado para tareas donde prima la calidad por encima del coste o la velocidad, como decisiones complejas, auditorías técnicas o resolución de problemas de alto impacto.

SWE Bench Pro public Ingenieria de software

Ciencia, matemáticas y razonamiento abstracto

OpenAI sitúa a GPT-5.2 como su modelo más potente hasta la fecha para trabajos científicos y matemáticos. En GPQA Diamond, evaluación de preguntas a nivel de posgrado diseñada por Google, GPT-5.2 Pro alcanza un 93,2 % y GPT-5.2 Thinking un 92,4 %. Y en FrontierMath (niveles 1-3), GPT-5.2 Thinking resuelve el 40,3 % de los problemas, un nuevo récord para la compañía.

En razonamiento abstracto, GPT-5.2 Thinking llega al 86,2 % en ARC-AGI-1 (Verified) y al 52,9 % en ARC-AGI-2, pruebas diseñadas para medir la capacidad del modelo de extrapolar patrones y resolver problemas novedosos, más allá de la memorización de datos.

OpenAI asegura que ya se están viendo contribuciones concretas en investigación, como la ayuda de GPT-5.2 Pro para abordar una cuestión abierta en teoría del aprendizaje estadístico, donde el modelo propuso una prueba que posteriormente fue verificada por investigadores humanos.

Seguridad, salud mental y protección de menores

En el plano de la seguridad, GPT-5.2 se apoya en la línea de investigación de “finalización segura” introducida con GPT-5, entrenando al modelo para maximizar la utilidad sin traspasar los límites de seguridad definidos.

Según la tarjeta de sistema actualizada, se han reforzado las respuestas en temas sensibles como:

suicidio y autolesión,
angustia mental,
dependencia emocional del modelo.

En métricas internas, GPT-5.2 Instant y GPT-5.2 Thinking muestran menos respuestas indeseadas que GPT-5.1 y modelos previos. Además, OpenAI ha empezado a desplegar un sistema de predicción de edad para aplicar protecciones adicionales a usuarios menores de 18 años, limitando el acceso a contenido sensible y apoyándose en controles parentales cuando se dispone de esa información.

Disponibilidad, precios y posición en la gama de OpenAI

En ChatGPT, GPT-5.2 (Instant, Thinking y Pro) se está desplegando de forma gradual para los planes de pago, mientras que GPT-5.1 seguirá disponible durante tres meses más antes de ser descontinuado en la interfaz de usuario.

En la API, los modelos se ofrecen como:

gpt-5.2 y gpt-5.2-chat-latest para GPT-5.2 Thinking / Instant,
gpt-5.2-pro para GPT-5.2 Pro.

El precio de GPT-5.2 Thinking se sitúa en 1,75 dólares por 1 millón de tokens de entrada y 14 dólares por 1 millón de tokens de salida, con un 90 % de descuento en entradas cacheadas. GPT-5.2 Pro eleva esa cifra a 21 dólares por millón de tokens de entrada y 168 dólares por millón de salida.

Aunque son tarifas superiores a las de GPT-5.1, OpenAI sostiene que, para alcanzar el mismo nivel de calidad, GPT-5.2 resulta más económico gracias a su mayor eficiencia en el uso de tokens. De momento, la compañía no planea retirar GPT-5.1, GPT-5 ni GPT-4.1 de la API, y se compromete a anunciar con tiempo cualquier cambio en su ciclo de vida.

Qué significa GPT-5.2 para empresas y profesionales

Con GPT-5.2, OpenAI refuerza su apuesta por la IA aplicada al trabajo del conocimiento: hojas de cálculo complejas, modelos financieros, código de producción, análisis de documentos extensos, soporte al cliente y proyectos con múltiples pasos y herramientas.

Para las empresas, el mensaje es claro: el modelo ya no es solo un asistente de texto, sino una pieza que aspira a integrarse en flujos de trabajo completos, desde el análisis hasta la ejecución. Para los profesionales, la promesa pasa por ganar más tiempo y calidad en tareas altamente especializadas, siempre bajo una condición que la propia compañía repite: verificación humana en cualquier decisión crítica.

vía: openai

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Alan Sonny

Escribo sobre inteligencia artificial, robótica y tecnología y sigo la actualidad y notas del sector.

GPT-5.2: OpenAI sube el listón de la IA profesional con más contexto, mejor código y menos errores