Cómo la IA generativa está rediseñando los centros de datos

Entrenar un modelo de lenguaje grande (LLM) como GPT-3 requirió 1.024 GPUs trabajando durante 34 días. GPT-4 escaló ese número varios órdenes de magnitud. Detrás de esas cifras hay un problema de infraestructura que los centros de datos convencionales no estaban preparados para absorber: densidad eléctrica por rack, disipación de calor, conectividad de red interna y latencia entre nodos de procesamiento. La IA generativa no solo consume más recursos que las aplicaciones empresariales tradicionales, sino que los consume de una manera diferente, lo que obliga a repensar el diseño del datacenter desde las primeras fases de planificación.

Entrenamiento e inferencia: dos cargas de trabajo, dos problemas distintos

El ciclo de vida de un modelo de IA tiene dos fases con perfiles de consumo radicalmente distintos. El entrenamiento es la fase intensiva: leer millones o miles de millones de parámetros, ajustar pesos en GPU, mover cantidades masivas de datos entre almacenamiento y memoria de vídeo. Requiere una densidad eléctrica por rack que puede superar los 40-100 kW, frente a los 5-15 kW habituales en cargas empresariales. La refrigeración por líquido, que en los centros de datos convencionales es una opción, se convierte en una necesidad práctica.

La inferencia, la fase en la que el modelo responde a consultas en producción, es menos intensiva por operación, pero se escala en millones de peticiones simultáneas. La latencia pasa a ser la variable crítica: un modelo que tarda 300 ms en responder es diferente, para el usuario y para la arquitectura, de uno que tarda 30 ms. Esto lleva a desplegar capacidad de inferencia más cerca del usuario final, en localizaciones de edge o en regiones geográficas distribuidas.

Qué cambia en la arquitectura del datacenter

Los centros de datos diseñados para aplicaciones empresariales clásicas priorizan la redundancia y la disponibilidad: sistemas de alimentación ininterrumpida, doble conexión de red, replicación de datos. Para el entrenamiento de IA, la prioridad cambia: se prefiere maximizar la potencia disponible y la velocidad del bus de datos entre GPU, aunque eso implique asumir que una interrupción en el proceso de entrenamiento puede significar perder horas de cómputo.

La interconexión entre GPU es otro factor determinante. NVLink de NVIDIA permite anchos de banda de varios terabytes por segundo entre GPUs del mismo nodo. Entre nodos, el estándar InfiniBand ofrece latencias mucho menores que Ethernet convencional. Un cluster de entrenamiento grande requiere una red de interconexión específica que los datacenters de propósito general no tienen instalada. Las inversiones de OpenAI en el proyecto Stargate en Michigan, con un datacenter de 1.000 MW, ilustran la escala que requiere el entrenamiento de modelos de próxima generación.

El impacto no es solo técnico. El mercado de centros de datos hiperescalares se ha disparado con la IA, con inversiones que superan los 1.000 millones de dólares por instalación en los grandes proveedores cloud. El consumo eléctrico de los datacenters de IA plantea además preguntas directas sobre sostenibilidad y acceso a energía renovable que los operadores aún están resolviendo.

El papel de los proveedores cloud y los chips especializados

AWS, Azure y Google Cloud han respondido a la demanda de IA con instancias especializadas basadas en GPU (A100, H100, H200 de NVIDIA) y con chips propios: AWS Trainium y Inferentia, Google TPU, Amazon Graviton. Estos chips son el resultado de optimizar hardware para cargas de trabajo específicas de IA, algo que una CPU de propósito general no puede igualar en rendimiento por watt.

La disponibilidad de GPUs H100 fue tan limitada en 2023 que empresas como NVIDIA y sus socios industriales tenían listas de espera de meses. La escasez obligó a muchas empresas a priorizar entre entrenamiento e inferencia, o a diseñar arquitecturas que maximizaran la eficiencia de los chips disponibles.

Preguntas frecuentes

¿Cuál es la diferencia entre entrenamiento e inferencia en IA?

El entrenamiento es la fase en la que el modelo aprende de los datos, con alta demanda de GPU, memoria y ancho de banda. La inferencia es la fase de producción, cuando el modelo responde a consultas reales; es menos intensiva por operación pero escala en millones de peticiones simultáneas, donde la latencia se convierte en la variable crítica.

¿Por qué los centros de datos convencionales no sirven para entrenar LLM?

Porque no están diseñados para densidades eléctricas de 40-100 kW por rack, ni tienen la red de interconexión entre GPU (NVLink, InfiniBand) que requiere el entrenamiento distribuido. Tampoco disponen habitualmente de refrigeración por líquido, que pasa a ser necesaria a esas densidades.

¿Cuántas GPU necesitó entrenar GPT-3?

GPT-3 se entrena con 1.024 GPUs durante 34 días. GPT-4 requirió una escala significativamente mayor, aunque OpenAI no ha publicado los detalles exactos. Los modelos de próxima generación requieren clusters de decenas de miles de GPUs.

¿Qué chips especializados usan los proveedores cloud para IA?

Además de las GPU de NVIDIA (A100, H100, H200), los grandes proveedores tienen chips propios: AWS Trainium y Inferentia para entrenamiento e inferencia, Google TPU para sus cargas de IA y Amazon Graviton para computación de propósito general con eficiencia mejorada.

Scroll al inicio