OpenAI lanza GPT-5.5 y eleva la apuesta por la IA agéntica en trabajo, código e investigación

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

OpenAI ha presentado GPT-5.5, su nuevo modelo de frontera para ChatGPT y Codex, con un mensaje muy claro: el siguiente salto de la Inteligencia Artificial ya no consiste solo en responder mejor, sino en entender antes la intención del usuario, usar herramientas, comprobar su propio trabajo y avanzar durante más tiempo hasta completar una tarea compleja. La compañía lo describe como su modelo “más inteligente e intuitivo” hasta la fecha y como un paso más hacia una nueva forma de trabajar en el ordenador.

La novedad no llega sola. OpenAI acompaña el lanzamiento con una batería de benchmarks en programación, uso de herramientas, navegación web, contexto largo, trabajo profesional e investigación científica, además de una actualización importante de sus salvaguardas. GPT-5.5 ya se está desplegando en ChatGPT y Codex para usuarios Plus, Pro, Business y Enterprise, mientras que GPT-5.5 Pro queda reservado a Pro, Business y Enterprise en ChatGPT. En Codex, GPT-5.5 también llega a los planes Edu y Go, y la API se anunció para “muy pronto”.

OpenAI sitúa el foco en cuatro áreas donde cree que el modelo da un salto visible: programación agéntica, uso del ordenador, trabajo de conocimiento e investigación científica inicial. La compañía sostiene que GPT-5.5 mantiene una latencia por token similar a la de GPT-5.4 en servicio real, pero con más capacidad y con menos consumo de tokens en tareas de Codex, lo que le permite presentarlo no solo como un modelo más potente, sino también más eficiente.

Más autonomía para programar, navegar y acabar tareas largas

El núcleo del anuncio está en la idea de “modelo que se encarga de más trabajo por sí mismo”. OpenAI afirma que GPT-5.5 mejora especialmente en depuración de código, refactorización, validación, investigación online, análisis de datos, generación de documentos y hojas de cálculo, operación de software y navegación entre herramientas hasta terminar una tarea. Según la compañía, el modelo es más persistente, pide menos guía y maneja mejor la ambigüedad.

En programación, OpenAI subraya que GPT-5.5 es su mejor modelo agéntico hasta ahora y lo apoya en varios resultados. En Terminal-Bench 2.0 alcanza un 82,7 %, frente al 75,1 % de GPT-5.4; en Expert-SWE, una evaluación interna para tareas de ingeniería de largo recorrido, sube al 73,1 % frente al 68,5 % del modelo anterior; y en SWE-Bench Pro obtiene un 58,6 %, una mejora ligera sobre el 57,7 % de GPT-5.4, aunque por detrás del 64,3 % que OpenAI atribuye a Claude Opus 4.7 en esa prueba concreta. La propia compañía insiste en que, en conjunto, GPT-5.5 mejora los resultados de GPT-5.4 usando menos tokens.

En uso del ordenador y trabajo profesional también hay mejoras. OpenAI publica un 78,7 % en OSWorld-Verified, frente al 75,0 % de GPT-5.4, y un 84,9 % en GDPval, su benchmark de trabajo profesional por ocupaciones, por encima del 83,0 % de GPT-5.4 y del 80,3 % que atribuye a Claude Opus 4.7. En navegación web y uso de herramientas, GPT-5.5 marca 84,4 % en BrowseComp y 55,6 % en Toolathlon, ambos por encima de GPT-5.4, aunque en MCP Atlas queda por detrás de Claude Opus 4.7 y ligeramente por debajo de algunos registros de Gemini 3.1 Pro.

Tabla comparativa: así queda GPT-5.5 frente a GPT-5.4 y otros modelos

La siguiente tabla resume algunos de los datos más relevantes publicados por OpenAI. Conviene leerlos como lo que son: resultados de benchmarks seleccionados y presentados por el propio fabricante, útiles para comparar tendencias, aunque no equivalen por sí solos al rendimiento real en todos los entornos de producción.

Evaluación	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82,7 %	75,1 %	69,4 %	68,5 %
GDPval (gana o empata)	84,9 %	83,0 %	80,3 %	67,3 %
OSWorld-Verified	78,7 %	75,0 %	78,0 %	—
BrowseComp	84,4 %	82,7 %	79,3 %	85,9 %
FrontierMath Tier 1–3	51,7 %	47,6 %	43,8 %	36,9 %
FrontierMath Tier 4	35,4 %	27,1 %	22,9 %	16,7 %
CyberGym	81,8 %	79,0 %	73,1 %	—

Fuente: OpenAI.

Más allá de esa tabla, OpenAI también destaca avances en contexto largo. En Graphwalks BFS 1M, GPT-5.5 alcanza un 45,4 %, frente al 9,4 % de GPT-5.4, y en OpenAI MRCR v2 8-needle 512K–1M sube al 74,0 %, muy por encima del 36,6 % del modelo anterior. Son cifras que refuerzan la idea de que el modelo aguanta mejor tareas largas y con mucha información en contexto, algo crítico en agentes, análisis documental y programación compleja.

Una IA más útil en ciencia, pero también con más controles

OpenAI también quiere posicionar GPT-5.5 como herramienta de investigación. En GeneBench sube del 19,0 % de GPT-5.4 al 25,0 %, y en BixBench pasa del 74,0 % al 80,5 %. La empresa menciona además un caso interno en matemáticas sobre números de Ramsey y varios testimonios de investigadores que han usado GPT-5.5 Pro como colaborador para revisar manuscritos, proponer análisis y trabajar con código, notas y PDFs. Aunque estos ejemplos no equivalen a validación científica independiente, sí muestran hacia dónde quiere empujar OpenAI el relato del producto: de copiloto de texto a copiloto de investigación y ejecución técnica.

Ese salto de capacidad viene acompañado de una capa de seguridad más fuerte. OpenAI afirma haber evaluado GPT-5.5 con su marco completo de preparedness, con red teaming interno y externo, pruebas específicas en ciberseguridad y biología/química, y feedback de casi 200 partners de acceso anticipado. La compañía clasifica las capacidades de GPT-5.5 en ciberseguridad y biología/química como “High” dentro de su Preparedness Framework, aclara que el modelo no alcanza el nivel “Critical” en ciber, pero sí representa un paso adelante respecto a GPT-5.4, y anuncia controles más estrictos frente a usos de riesgo y reincidencia.

OpenAI también enlaza este lanzamiento con su programa Trusted Access for Cyber, con acceso más permisivo para usuarios verificados en tareas defensivas y opciones específicas para organizaciones responsables de infraestructuras críticas. En paralelo, ha publicado una System Card y una Bio Bug Bounty orientada a encontrar jailbreaks universales relacionados con riesgos biológicos.

Precios, contexto y acceso: qué cambia para empresas y desarrolladores

En ChatGPT, GPT-5.5 Thinking llega a Plus, Pro, Business y Enterprise, mientras que GPT-5.5 Pro queda para Pro, Business y Enterprise. En Codex, GPT-5.5 se ofrece con una ventana de contexto de 400.000 tokens y un modo Fast que genera tokens 1,5 veces más rápido a 2,5 veces el coste. Para la API, OpenAI ha adelantado que gpt-5.5 llegará a Responses API y Chat Completions API con 1 millón de tokens de contexto, a 5 dólares por millón de tokens de entrada y 30 dólares por millón de tokens de salida; gpt-5.5-pro costará 30 dólares por millón de entrada y 180 dólares por millón de salida. En Batch y Flex, OpenAI indica tarifas al 50 % del precio estándar, mientras que el procesado Priority costará 2,5 veces la tarifa base.

Ese posicionamiento deja una lectura de mercado bastante evidente. GPT-5.5 no sustituye al discurso de eficiencia: lo refuerza. OpenAI insiste en que, aunque es más caro que GPT-5.4, usa menos tokens para completar muchas tareas y ofrece mejor rendimiento en Codex y trabajo profesional. Eso apunta a una estrategia bastante clara: cobrar más por modelo, pero vender ahorro en iteraciones, tiempo y completitud de tarea.

OpenAI ya no vende solo un chatbot, sino un operador de trabajo digital

Si algo deja claro este lanzamiento es que OpenAI quiere salir del marco del chatbot “muy listo” para entrar de lleno en el del agente que usa herramientas, se mueve por software y resuelve trabajo real. El texto oficial habla de crear documentos, hojas de cálculo y presentaciones, de operar software y de moverse entre herramientas hasta completar una tarea. También presume de uso interno: asegura que más del 85 % de la empresa usa Codex cada semana en funciones como ingeniería, finanzas, comunicación, marketing, ciencia de datos o producto.

La cuestión de fondo, por tanto, ya no es solo si GPT-5.5 es mejor que GPT-5.4. Es si OpenAI está empezando a construir el modelo de IA que deja de responder por turnos y empieza a comportarse como una capa de trabajo digital persistente. Con este anuncio, la empresa quiere que la respuesta sea sí. Que lo consiga o no dependerá menos del marketing y más de cómo se comporte GPT-5.5 en el uso real, fuera de los benchmarks y dentro de los flujos cotidianos de empresas, desarrolladores e investigadores.

Preguntas frecuentes

¿Qué es GPT-5.5 y en qué mejora a GPT-5.4?
Es el nuevo modelo de frontera de OpenAI para ChatGPT y Codex. Según la compañía, mejora especialmente en programación agéntica, uso de herramientas, navegación web, trabajo profesional e investigación, manteniendo una latencia por token similar a GPT-5.4 y usando menos tokens en muchas tareas.

¿Quién puede usar ya GPT-5.5?
GPT-5.5 se está desplegando en ChatGPT para usuarios Plus, Pro, Business y Enterprise, y en Codex también para planes Edu y Go. GPT-5.5 Pro está disponible para Pro, Business y Enterprise en ChatGPT.

¿Cuándo llegará GPT-5.5 a la API y cuánto costará?
OpenAI ha dicho que llegará “muy pronto”. El precio anunciado para gpt-5.5 es de 5 dólares por millón de tokens de entrada y 30 dólares por millón de salida; gpt-5.5-pro costará 30 dólares por millón de entrada y 180 dólares por millón de salida.

¿OpenAI ha endurecido la seguridad con GPT-5.5?
Sí. OpenAI afirma haber aplicado su conjunto de salvaguardas más fuerte hasta la fecha, con evaluaciones completas, red teaming, pruebas específicas en biología y ciberseguridad, y controles más estrictos sobre actividad de mayor riesgo.