Sam Altman: escalar los modelos de IA ya no es la solución

El CEO de OpenAI, Sam Altman, lanzó en mayo de 2023, durante un evento en el MIT, una afirmación que chocaba con la lógica dominante en el sector: la era de los modelos de lenguaje (LLM) masivos, como GPT-4, está llegando a su fin. Según Altman, el progreso futuro en inteligencia artificial no vendrá de añadir más parámetros, sino de ideas nuevas.

La declaración cobra peso si se tiene en cuenta la trayectoria de los propios modelos de OpenAI: GPT-2 (2019) tenía 1.500 millones de parámetros; GPT-3 (2020) llegó a 175.000 millones; y GPT-4 (2023) supera, según algunas fuentes, el billón de parámetros. El coste de desarrollar ChatGPT superó los 100 millones de dólares, una cifra que no puede seguir creciendo al mismo ritmo que los parámetros.

Tres límites concretos que frenan el escalado

Altman identificó tres obstáculos que hacen insostenible seguir aumentando el tamaño de los modelos. El primero es el rendimiento decreciente: cada nueva generación de parámetros aporta menos mejora que la anterior en las mismas tareas. El segundo es la capacidad física: construir y operar los centros de datos necesarios para entrenar estos modelos tiene límites de espacio, energía e infraestructura que no se pueden ignorar. El tercero es el coste de entrenamiento, que ya supera lo que la mayoría de organizaciones puede asumir.

A estos tres factores hay que añadir un cuarto que Altman no mencionó explícitamente: el acceso a datos. Los LLM necesitan cantidades masivas de texto para mejorar, pero ese acceso se está volviendo más complicado y caro por varias razones.

El problema del acceso a datos: copyright, privacidad y geopolítica

Las demandas por derechos de autor son la parte más visible del problema. Getty Images y artistas individuales han demandado a empresas de IA por el uso no autorizado de su contenido en conjuntos de datos de entrenamiento. Pero el cuello de botella no es solo legal: los marcos regulatorios de privacidad (RGPD en Europa, CCPA en California) imponen restricciones sobre qué datos pueden usarse y cómo, lo que reduce el universo de información disponible.

A esto se suman la geopolítica, ya que ciertos países restringen el flujo de datos hacia modelos entrenados fuera de sus fronteras, la contaminación de datos, los propios outputs de los modelos de IA que ya están presentes en internet y que distorsionan el entrenamiento de las generaciones siguientes, y las políticas de monetización de plataformas que antes cedían datos libremente y ahora cobran por ellos.

¿Qué viene después de los modelos masivos?

Altman no detalló qué nuevas ideas deberían sustituir al escalado bruto, pero el sector ya apunta algunas direcciones: modelos más eficientes entrenados con datos de mayor calidad, arquitecturas especializadas por dominio y técnicas como el fine-tuning sobre modelos base más pequeños. Google, de hecho, ilustró esta tendencia el mismo día con la presentación de PaLM 2 en cuatro tamaños diferentes, incluyendo una variante que funciona sin conexión en móviles, y con la expansión de Bard a 180 países basada en ese mismo modelo. La pregunta ya no es solo quién tiene el modelo más grande, sino quién sabe hacer más con menos.

Preguntas frecuentes

¿Qué dijo Sam Altman exactamente sobre el futuro de los LLM?

Altman afirmó en el MIT que la era de los modelos masivos como GPT-4 está llegando a su fin y que el progreso futuro requerirá nuevas ideas en lugar de simplemente añadir más parámetros.

¿Cuánto costó desarrollar ChatGPT?

Según datos citados en mayo de 2023, el desarrollo de ChatGPT costó más de 100 millones de dólares. OpenAI no ha publicado cifras oficiales detalladas.

¿Por qué es complicado conseguir más datos para entrenar LLM?

Los principales obstáculos son las demandas por derechos de autor, las restricciones regulatorias de privacidad (RGPD, CCPA), las políticas de monetización de plataformas, la geopolítica y la contaminación de datos por los propios outputs de modelos anteriores.

¿Cuántos parámetros tiene GPT-4?

Según fuentes no oficiales, GPT-4 supera el billón de parámetros. OpenAI no ha confirmado esta cifra públicamente. Para comparar: GPT-3 (2020) tenía 175.000 millones y GPT-2 (2019) tenía 1.500 millones.

Scroll al inicio