OpenAI presentó GPT-4 el 14 de marzo de 2023 como su modelo de lenguaje más avanzado hasta esa fecha, después de seis meses de pruebas internas centradas en seguridad y alineamiento. La compañía lo describió como un sistema con capacidades multimodales, ventana de contexto de hasta 25.000 palabras y mejoras claras en razonamiento frente a GPT-3.5, el motor que entonces movía ChatGPT. El acceso llegó primero a usuarios de ChatGPT Plus y a desarrolladores con API por lista de espera, con socios como Duolingo, Stripe o Khan Academy ya probándolo en producción.
El salto frente a la generación anterior se midió en exámenes estandarizados que OpenAI publicó en su página oficial de producto y en el technical report. GPT-4 aprobaba el examen uniforme de la abogacía estadounidense con una nota dentro del 10% superior, mientras que GPT-3.5 lo suspendía dentro del 10% inferior. En la prueba GRE de razonamiento verbal pasaba del percentil 63 al 99, y en la olimpiada de biología, del 31% al 87%. Los benchmarks técnicos también se movieron: 86,4% en MMLU frente al 70% de su predecesor y 67% en HumanEval para programación.
Multimodalidad y ventana de contexto
La novedad más visible fue la entrada de imágenes. GPT-4 aceptaba fotos, capturas, diagramas o esquemas y devolvía descripciones, clasificaciones y razonamiento sobre lo que veía, aunque OpenAI mantuvo esta función en preview durante meses y solo la liberó al gran público a finales de 2023. La aplicación más comentada fue la integración con Be My Eyes, que usaba el modelo para describir el entorno a personas con discapacidad visual.
La ventana de 8.192 tokens de la versión estándar (unas 6.000 palabras) y la versión extendida de 32.768 tokens (las 25.000 palabras anunciadas) abrieron casos que con GPT-3.5 no eran viables, como el análisis de documentos largos, las conversaciones que mantenían el hilo durante horas y la generación de textos extensos sin perder coherencia. Aquellos límites parecen modestos comparados con los millones de tokens que manejan los modelos de 2026, pero en marzo de 2023 supusieron un cambio de escala.
Creatividad y razonamiento
Una de las mejoras que más se notó fue la edición colaborativa. GPT-4 editaba, reescribía y se adaptaba al estilo de quien le hablaba con bastante más finura que GPT-3.5. En tareas creativas (componer letras, escribir guiones, resumir manteniendo voz) se notaba el cambio sin necesidad de medirlo en benchmarks. En razonamiento, la diferencia se vio sobre todo en cadenas largas de pasos: problemas matemáticos con varios subproblemas, deducciones que requerían atar varios hechos e instrucciones complejas con condiciones encadenadas.
Seguridad y alineamiento
OpenAI dedicó seis meses al red-teaming antes del lanzamiento, con más de 50 expertos externos en seguridad, sesgos, ciberseguridad y riesgos biológicos. El resultado, según sus evaluaciones internas, fue un 82% menos de respuestas a peticiones de contenido prohibido y un 40% más de respuestas factuales frente a GPT-3.5. Esos porcentajes vienen del propio informe de la compañía y conviene leerlos con la cautela habitual, porque el modelo seguía equivocándose, alucinando datos y aceptando jailbreaks creativos, como demostraron los meses siguientes.
Quién lo probó primero
El despliegue inicial se apoyó en una lista de socios cuidadosamente elegida. Duolingo lanzó Duolingo Max con conversaciones tutoriales y explicación de errores; Stripe lo usó para análisis de documentación interna y detección de fraude; Morgan Stanley lo empotró en un asistente para sus 16.000 asesores financieros; Khan Academy estrenó Khanmigo, su tutor virtual; y el Gobierno de Islandia se apoyó en el modelo para preservar el islandés en la era digital. La lista funcionó como muestrario de los terrenos donde un LLM podía aportar valor real más allá del chatbot generalista.
Lo que vino después
Visto con la perspectiva de 2026, GPT-4 marcó el inicio de la fase comercial seria de la IA generativa. A los pocos meses llegó GPT-4 Turbo con contexto de 128.000 tokens, después GPT-4o con multimodalidad nativa de voz e imagen, y la familia se ramificó en o1, o3 y mini de bajo coste. La línea original quedó descatalogada en febrero de 2026, como contamos en el aviso de retiro de GPT-4 y derivados en ChatGPT. Hoy el modelo de referencia es GPT-5.4, presentado en marzo de 2026 como sistema frontier para agentes y desarrollo, según detallamos al cubrir la promoción de GPT-5.4 a modelo de referencia, mientras que el más reciente es GPT-5.5, con foco en IA agéntica. La evolución del lineage hacia el terreno empresarial quedó dibujada con GPT-5.2 y su giro a la IA experta.
GPT-4 quedó como el modelo bisagra, el que dejó claro que un LLM podía ser herramienta de trabajo seria y no solo un juguete, y el que disparó la carrera entre OpenAI, Anthropic, Google y Meta que sigue marcando la actualidad del sector tres años después.
Preguntas frecuentes sobre GPT-4
¿Cuándo se lanzó GPT-4 y quién podía usarlo?
OpenAI lo presentó el 14 de marzo de 2023. El acceso llegó primero a los usuarios de ChatGPT Plus en versión web y a desarrolladores a través de la API mediante lista de espera. La función de entrada visual quedó en preview varios meses y se abrió al gran público a finales de ese mismo año.
¿En qué se diferenciaba GPT-4 de GPT-3.5?
GPT-4 aceptaba imágenes como entrada, manejaba contextos de hasta 32.768 tokens y mejoraba claramente en razonamiento, exámenes técnicos y seguridad. En MMLU pasaba del 70% al 86,4%, y en pruebas como el examen de la abogacía pasaba del percentil 10 inferior al 10 superior frente a GPT-3.5.
¿Sigue disponible GPT-4 en 2026?
No. OpenAI retiró GPT-4 y sus derivados (GPT-4o, GPT-4.1, GPT-4.1 Mini y o4-mini) de ChatGPT a partir de febrero de 2026, dentro del proceso de migración a la familia GPT-5. El modelo sigue documentado en su technical report original, pero ya no se puede invocar desde la API ni desde ChatGPT.
¿Qué empresas adoptaron GPT-4 desde el primer día?
Duolingo, Be My Eyes, Stripe, Morgan Stanley, Khan Academy y el Gobierno de Islandia formaron parte del grupo inicial de socios anunciados por OpenAI. Cada socio cubría un caso distinto, y entre los seis abarcaban educación de idiomas, accesibilidad visual, antifraude, asesoramiento financiero, tutoría académica y conservación lingüística.
¿Qué cambió en seguridad respecto a versiones anteriores?
OpenAI hizo seis meses de red-teaming con más de 50 expertos externos antes del lanzamiento. Según sus números internos, GPT-4 era un 82% menos propenso a responder peticiones prohibidas y un 40% más propenso a dar respuestas factuales que GPT-3.5. Aun así, el modelo seguía alucinando y los jailbreaks aparecieron a las pocas semanas de salir.
Más información en OpenAI.












