GPT-3 (Generative Pre-trained Transformer 3) es el modelo de lenguaje grande (LLM) que OpenAI presentó en junio de 2020 y que cambió la conversación pública sobre la inteligencia artificial. Con 175.000 millones de parámetros, fue el primer modelo de propósito general capaz de redactar texto coherente, traducir, programar y resolver tareas para las que no había sido entrenado de forma específica. No es el modelo más potente hoy —ya conviven con él GPT-4, GPT-5 y la familia GPT-5.5—, pero sigue siendo la pieza que hizo posible todo lo que vino después, ChatGPT incluido.
Qué es GPT-3 y por qué importó tanto
GPT-3 es un modelo autoregresivo: predice la siguiente palabra (en realidad, el siguiente token) a partir del texto que ya ha visto. Esa idea no era nueva. Lo nuevo era la escala. OpenAI multiplicó por cien los parámetros respecto a GPT-2 y entrenó la red sobre cientos de miles de millones de tokens procedentes de internet, libros y Wikipedia. El resultado fue un sistema que respondía bien a tareas con apenas un par de ejemplos en el prompt, lo que se conoce como few-shot learning.
Hasta entonces, cada tarea de procesamiento de lenguaje natural —clasificar correos, traducir, resumir— requería entrenar un modelo a medida. GPT-3 demostró que un único modelo grande, bien preentrenado, podía cubrir buena parte de esos casos sin reentrenamiento. La industria entera giró hacia ese enfoque.
Cómo funciona por dentro: la arquitectura Transformer
GPT-3 está construido sobre la arquitectura Transformer, propuesta por Google en el paper Attention Is All You Need (2017). Su pieza clave es el mecanismo de autoatención: cada palabra del texto puede «mirar» a las demás para entender el contexto, sin pasar la información por una memoria secuencial como hacían las redes recurrentes anteriores. Eso permite paralelizar el entrenamiento y trabajar con contextos largos.
El modelo se compone de 96 capas de Transformer apiladas, con 96 cabezas de atención por capa y vectores internos de 12.288 dimensiones. Esa profundidad y esa anchura son las que dan los famosos 175B de parámetros. El entrenamiento usó datasets como Common Crawl filtrado, WebText2, Books1, Books2 y Wikipedia, con un total cercano a los 300.000 millones de tokens.
Qué sabe hacer GPT-3
- Generación de texto: artículos, correos, ficción, resúmenes y reescrituras a partir de una instrucción.
- Traducción: pares de idiomas con calidad razonable, sin entrenamiento específico para traducir.
- Programación: la versión Codex, derivada de GPT-3, fue la base del primer GitHub Copilot.
- Preguntas y respuestas: comprensión lectora sobre textos cortos y conocimiento de propósito general.
- Clasificación y extracción: análisis de sentimiento, etiquetado, extracción de entidades.
- Conversación: la base sobre la que se construyó la primera versión de ChatGPT (GPT-3.5).
Tamaño no lo es todo: lo que vino después
Durante un par de años pareció que el camino era escalar sin freno. La práctica posterior ha matizado esa idea. Modelos mucho más pequeños y mejor entrenados, como Bonsai 8B, llegan hoy a resultados competitivos en tareas concretas con una fracción de los parámetros. Lo que marca la diferencia ya no es solo el tamaño bruto, sino la calidad del corpus, las técnicas de afinado por refuerzo (RLHF), la mezcla de expertos y, cada vez más, la infraestructura de inferencia sobre la que corre el modelo.
Cómo encaja GPT-3 en el panorama actual
GPT-3 sigue accesible vía API en la plataforma de OpenAI bajo nombres como davinci-002 y babbage-002, aunque el catálogo recomendado son ya los modelos GPT-4o, o4 y la familia GPT-5. Para producción nueva casi nadie elige GPT-3 puro: es más caro por token y peor en razonamiento que las alternativas posteriores. Donde sigue teniendo sentido es en compatibilidad de proyectos antiguos y en investigación académica que necesita una baseline conocida.
Para quien quiere entender la IA generativa actual, conocer GPT-3 sirve como mapa. Casi todos los términos que circulan hoy —tokens, prompt, contexto, parámetros, alineamiento, alucinación— se popularizaron con este modelo. Y muchas de sus limitaciones siguen vigentes en sus sucesores, aunque atenuadas.
Limitaciones reales del modelo
- Alucinaciones: GPT-3 inventa datos, fechas y citas con seguridad si no tiene la información correcta. No distingue entre lo que sabe y lo que improvisa.
- Conocimiento congelado: el corte de datos de entrenamiento fue octubre de 2019. Todo lo posterior se ignora.
- Contexto limitado: la versión original trabajaba con 2.048 tokens de contexto, muy lejos de los cientos de miles que manejan los modelos actuales.
- Sesgos heredados del corpus: prejuicios de género, raza y cultura presentes en los datos de internet.
- Sin razonamiento real: resuelve problemas matemáticos sencillos por imitación estadística, no por cálculo lógico.
- Coste computacional: entrenar GPT-3 desde cero costó varios millones de dólares en cómputo y solo es viable para grandes laboratorios.
Por qué GPT-3 sigue siendo una referencia
Más allá de su uso real, GPT-3 funciona como momento bisagra del sector. Antes de él, la IA generativa era un asunto de laboratorio. Después, una conversación de portada. ChatGPT se construyó encima, primero con GPT-3.5 y luego con GPT-4 y GPT-5. La misma idea —preentrenar un Transformer enorme y refinarlo con feedback humano— está detrás de Claude, Gemini, Mistral, Llama o DeepSeek. Entender qué hizo GPT-3 ayuda a entender qué intenta cada nuevo modelo cuando promete superarlo.
Preguntas frecuentes sobre GPT-3
¿Cuántos parámetros tiene GPT-3?
El modelo principal, GPT-3 175B (también llamado davinci), tiene 175.000 millones de parámetros. OpenAI publicó variantes más pequeñas para distintos escenarios: Ada (350M), Babbage (1,3B), Curie (6,7B) y Davinci (175B).
¿Cuándo se lanzó GPT-3?
OpenAI publicó el paper Language Models are Few-Shot Learners en mayo de 2020 y abrió el acceso vía API en junio de ese mismo año, primero en beta privada y después de forma comercial.
¿Es GPT-3 lo mismo que ChatGPT?
No. ChatGPT es un producto de chat conversacional. La primera versión, lanzada en noviembre de 2022, se construyó sobre GPT-3.5, una iteración de GPT-3 afinada con RLHF. Las versiones actuales de ChatGPT corren sobre GPT-4, GPT-5 y derivados.
¿Sigue disponible GPT-3 en 2026?
Sí, OpenAI mantiene endpoints derivados como davinci-002 y babbage-002. La compañía recomienda migrar a modelos más recientes, pero conserva los antiguos por compatibilidad con integraciones que llevan años en producción.
¿En qué se diferencia GPT-3 de GPT-4 o GPT-5?
GPT-4 y GPT-5 son multimodales (procesan imagen, audio y texto), tienen ventanas de contexto mucho mayores, alucinan menos y razonan mejor. GPT-3 trabaja solo con texto, en contextos cortos y sin las técnicas de razonamiento explícito que se han ido incorporando después.
¿Es GPT-3 de código abierto?
No. Los pesos del modelo nunca se han publicado. Solo se accede mediante la API de OpenAI. Para alternativas con pesos abiertos hay que mirar a familias como Llama, Mistral, Gemma, DeepSeek o Qwen.












