Evolución de la IA: de Dartmouth 1956 a los agentes de 2026

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

La inteligencia artificial cumple en 2026 setenta años desde que el término se acuñó en el verano de 1956, durante el seminario de Dartmouth. Setenta años en los que el campo ha pasado por tres olas bien diferenciadas, varios «inviernos» de financiación y un último tramo, el que va de 2017 hasta hoy, en el que los modelos han pasado de ganar partidas de Go a redactar contratos, escribir código y operar sistemas como agentes autónomos.

Este artículo repasa esa evolución sin saltarse ningún punto importante: cómo se llegó al deep learning, qué cambió con los transformers, por qué ChatGPT marcó un antes y un después en la adopción y en qué fase está la IA agéntica que hoy compran las grandes empresas.

Tres olas de IA: reglas, aprendizaje automático y deep learning

La primera ola, conocida como IA simbólica, dominó desde finales de los años 50 hasta los 80. Funcionaba con reglas escritas a mano por programadores: si pasa X, haz Y. Sirvió para los primeros sistemas expertos, como MYCIN en diagnóstico médico, y para programas de ajedrez tempranos, pero se topó con un muro evidente, ya que codificar a mano todo el conocimiento del mundo no es viable.

La segunda ola llegó con el aprendizaje automático moderno: en lugar de programar reglas, se entrenan modelos con datos para que generalicen patrones. Ahí caben técnicas tan distintas como la regresión, los árboles de decisión, los SVM o los primeros perceptrones. Con esta ola llegaron el reconocimiento de voz comercial, los filtros de spam y los recomendadores de producto.

La tercera ola es la del deep learning y, sobre todo, de los grandes modelos de lenguaje. Su arranque suele situarse en 2012, cuando AlexNet pulverizó el récord de la competición ImageNet usando redes neuronales convolucionales sobre GPU. Cinco años después, en 2017, el paper «Attention is All You Need» de Google presentó la arquitectura Transformer, que es la base de prácticamente todos los modelos generativos actuales: GPT, Claude, Gemini, Llama, Mistral, DeepSeek, Qwen o Kimi.

Cronología actualizada de la IA (1950-2026)

1950: Alan Turing publica «Computing Machinery and Intelligence» y propone el famoso test de Turing.
1956: seminario de Dartmouth, organizado por John McCarthy, Marvin Minsky, Claude Shannon y Nathaniel Rochester. Nace el término «artificial intelligence».
1957: Allen Newell y Herbert Simon presentan Logic Theorist, considerado el primer programa de IA.
1966: Stanford construye Shakey, el primer robot móvil capaz de razonar sobre sus acciones.
1971: el programa soviético Kaissa, del Instituto de Ciencias de la Computación de Moscú, gana el primer campeonato mundial de ajedrez por ordenador.
1980: los sistemas expertos llegan al sector empresarial con casos como XCON de DEC.
1986: Rumelhart, Hinton y Williams popularizan el algoritmo de retropropagación, clave para entrenar redes neuronales profundas.
1997: Deep Blue, de IBM, vence a Garry Kasparov en una partida oficial de ajedrez.
2006: Geoffrey Hinton acuña el término «deep learning» y demuestra cómo entrenar redes muy profundas.
2011: IBM Watson gana el concurso Jeopardy! frente a campeones humanos.
2012: AlexNet (Krizhevsky, Sutskever, Hinton) gana ImageNet con una red convolucional y abre la era del deep learning sobre GPU.
2015: en diciembre se funda OpenAI con Elon Musk, Sam Altman, Ilya Sutskever y otros, con un compromiso inicial de 1.000 millones de dólares.
2016: AlphaGo, de DeepMind, derrota a Lee Sedol en Go por 4-1.
2017: Vaswani y equipo publican «Attention is All You Need» y presentan la arquitectura Transformer.
2018: OpenAI lanza GPT-1 (117 millones de parámetros) y Google publica BERT.
2020: aparece GPT-3, con 175.000 millones de parámetros, el primer LLM con capacidades generales claras.
2022: el 30 de noviembre OpenAI abre ChatGPT al público y supera el millón de usuarios en cinco días.
2023: GPT-4 introduce capacidades multimodales reales y arrancan los grandes modelos chinos (Qwen, DeepSeek).
2024: Anthropic publica el Model Context Protocol (MCP), estándar abierto para conectar modelos a herramientas y datos externos.
2025: los modelos open-weight (Llama 3/4, DeepSeek V3, Qwen 3) recortan distancia con los cerrados y empieza la oleada de agentes en producción.
2026: OpenAI lanza GPT-5.5 con foco en agentes para trabajo, código e investigación, y el debate ya no es si la IA llega a las empresas, sino con qué garantías.

De los chatbots a los agentes: la fase actual

Lo que hoy llamamos IA agéntica es la pieza que faltaba para dar el salto de un asistente conversacional a un sistema que ejecuta tareas reales. Un agente no se limita a contestar al usuario, sino que planifica pasos, llama a herramientas externas (correo, CRM, terminal, navegador), revisa el resultado y decide si reintenta o pide ayuda. El protocolo MCP estandariza esa conexión a herramientas, y por eso 2024-2026 se va a recordar como el momento en que los LLM dejaron de ser solo un chat para convertirse en una capa de orquestación.

La parte menos visible de esta fase es la infraestructura. Entrenar un modelo de frontera puede costar cientos de millones de dólares en GPU y energía, y desplegarlo a escala obliga a repensar el data center entero. Casos como el de Meta comprando millones de núcleos Graviton a AWS para mover su IA agéntica dejan claro que la siguiente batalla se juega tanto en los modelos como en los chips, la red y la disponibilidad eléctrica.

Qué limita todavía a la IA en 2026

La IA actual sigue teniendo agujeros gordos que conviene tener presentes. Los modelos alucinan, sobre todo cuando se les pregunta por hechos concretos sin acceso a búsqueda. Son sensibles al sesgo de los datos con los que se entrenan. Y, en el caso de los agentes, suman un riesgo nuevo, que es el de que ejecuten acciones equivocadas con consecuencias reales: borrar archivos, mandar correos a quien no toca o gastar presupuesto en tareas inútiles.

A nivel regulatorio el AI Act europeo entró en aplicación por fases entre 2024 y 2026 y obliga a los proveedores de modelos de propósito general a documentar datos de entrenamiento, evaluar riesgos sistémicos y publicar resúmenes técnicos. En España la AESIA es la autoridad de referencia, y va a marcar el ritmo de cumplimiento para el resto del sector. Si quieres una introducción más práctica al uso de IA en local, esta guía para usuarios de Linux es un buen punto de partida.

Preguntas frecuentes

¿Cuándo nació la inteligencia artificial como disciplina?

El término «artificial intelligence» se acuñó en el seminario de Dartmouth en 1956, organizado por John McCarthy junto a Marvin Minsky, Claude Shannon y Nathaniel Rochester. Esa fecha se considera el inicio formal de la disciplina, aunque el test de Turing es de 1950 y hay trabajos de cibernética anteriores.

¿Qué diferencia hay entre IA, machine learning y deep learning?

La inteligencia artificial es el campo general; el machine learning es una rama dentro de la IA en la que el sistema aprende a partir de datos en lugar de seguir reglas fijas; y el deep learning es una técnica concreta de machine learning basada en redes neuronales con muchas capas. Todos los LLM actuales son deep learning, todo el deep learning es machine learning, pero no todo el machine learning es deep learning.

¿Por qué fue importante el Transformer de 2017?

Antes de los Transformers, las arquitecturas dominantes para texto eran las redes recurrentes (RNN, LSTM), que procesaban las palabras una a una y se atascaban con secuencias largas. El Transformer permite procesar toda la secuencia en paralelo gracias al mecanismo de atención y escala muy bien con más datos y más cómputo. Sin esa arquitectura, GPT, Claude, Gemini o DeepSeek no existirían tal como los conocemos.

¿Qué es la IA agéntica de la que tanto se habla en 2026?

Un agente IA es un sistema que combina un LLM con la capacidad de planificar pasos, llamar a herramientas externas (APIs, bases de datos, navegador, terminal) y revisar el resultado para decidir el siguiente movimiento. La diferencia con un chatbot clásico es que el agente actúa, no solo responde. El estándar MCP de Anthropic ha facilitado que estos agentes se integren con herramientas de empresa de forma reutilizable.

¿La IA va a sustituir empleos a corto plazo?

El consenso entre analistas serios apunta más a una reorganización que a una sustitución masiva en el corto plazo. Algunas tareas concretas (resumir documentos, redactar borradores, clasificar tickets, generar código de plantilla) ya se automatizan en parte. Otras, en las que importa el juicio, la responsabilidad legal o la relación con personas, siguen necesitando humano al mando. El reto real para empresas y trabajadores es aprender a usar la IA con criterio, no esperar a que decida sola.