¿Cuánto cuesta entrenar un modelo grande hoy?

El entrenamiento de Llama 3 70B costó unos 6 millones de dólares en cómputo. GPT-4 se estima en 60-100 millones. Con Blackwell el coste por token baja, pero los modelos también crecen, así que el gasto total del sector sigue subiendo.

Infraestructura
17/12/2022

GPUs para inteligencia artificial: H200, Blackwell y AMD MI300X en 2026

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Una GPU para inteligencia artificial ya no es la tarjeta gráfica que llevabas en el PC para jugar a triple A, aunque comparta nombre. En 2026 hablar de GPUs para inteligencia artificial es hablar de aceleradores de centro de datos como las NVIDIA H200 y B200, las AMD Instinct MI300X o las próximas MI325X, montadas en bastidores con HBM3e, NVLink y consumo eléctrico medido en megavatios. Esa es la capa física que entrena los grandes modelos de lenguaje (LLM, large language models) que usas todos los días sin saberlo.

El motivo de fondo es sencillo: una GPU está diseñada para hacer muchas cuentas a la vez (multiplicaciones de matrices, sobre todo), y eso es justo lo que necesitan los modelos basados en transformers. Una CPU moderna tiene decenas de núcleos potentes; una H200 tiene 16.896 núcleos CUDA y 528 tensor cores dedicados a operaciones de IA, con 141 GB de memoria HBM3e a casi 5 TB/s. La diferencia, traducida a entrenamiento, son meses contra semanas.

Cómo encaja la GPU en el flujo de IA

Hay dos cargas de trabajo que dominan el sector y conviene separarlas porque exigen hardware distinto.

Entrenamiento: ajustar los miles de millones de parámetros de un modelo a partir de datos. Aquí mandan la memoria HBM, el ancho de banda entre GPUs (NVLink, Infinity Fabric) y la precisión mixta (FP16, BF16, FP8). Es el terreno de las H100, H200, B100 y B200 de NVIDIA y de las MI300X de AMD.
Inferencia: ejecutar el modelo ya entrenado para responder a usuarios. Aquí pesan la latencia, el coste por token y la eficiencia energética. Cabe desde una H100 dedicada hasta una RTX 4090 con 24 GB en local, pasando por chips específicos como los AMD Instinct para inferencia o los Inferentia de AWS.

Esta separación explica por qué los hiperescalares (AWS, Azure, Google Cloud) compran H200 y B200 a Nvidia para entrenar y a la vez diseñan ASICs propios (Trainium, Maia, TPU) para servir inferencia más barata. La GPU de propósito general sigue siendo la pieza con más cuota, pero ya no es la única opción.

Las GPUs que mueven la IA en 2026

Las cifras de rendimiento se miden en TFLOPS (billones de operaciones en coma flotante por segundo) y, en aceleradores modernos, en petaflops en precisiones bajas como FP8 o FP4. Estas son las piezas relevantes hoy:

NVIDIA H200 (Hopper): el caballo de batalla del entrenamiento desde finales de 2024. 141 GB de HBM3e, 4,8 TB/s de ancho de banda, hasta 67 TFLOPS en FP64 y 1.979 TFLOPS en FP8 con dispersión. Es la GPU que está dentro de la mayor parte de los superordenadores de IA actuales.

NVIDIA B200 (Blackwell): el sucesor de la H200, presentado en GTC 2024 y en plena rampa de despliegue durante 2025-2026. Combina dos chips en un mismo paquete, sube a 192 GB de HBM3e y multiplica por entre 2,5 y 5 el rendimiento de inferencia frente a Hopper, según carga. Los racks GB200 NVL72 (72 GPUs Blackwell + 36 CPUs Grace) son la unidad de medida en los nuevos centros de datos de IA.

AMD Instinct MI300X y MI325X: la apuesta seria de AMD para no quedarse fuera del entrenamiento. La MI300X salió con 192 GB de HBM3, ventaja directa sobre la H100 de 80 GB, y la MI325X (2024-2025) sube a 256 GB de HBM3e y 6 TB/s. Microsoft, Meta y Oracle ya tienen despliegues en producción.

NVIDIA RTX 5090 y RTX 4090: aunque están pensadas para gaming y workstation, las dos se han convertido en la opción de referencia para inferencia local de modelos abiertos como Llama 3, Mistral o DeepSeek. La 5090 (Blackwell de consumo, lanzada en enero de 2025) llega a 32 GB de GDDR7 y 1.792 GB/s de ancho de banda. No compite con una H200 entrenando, pero sirve de sobra para desarrollar y probar modelos de hasta 30B parámetros cuantizados.

Apple Silicon (M3 Ultra, M4 Max): mención aparte para los Mac con memoria unificada. Un M3 Ultra con 192 GB carga modelos de 70B sin cuantización agresiva. La Neural Engine y el media engine de los Mac convierten al portátil en un banco de pruebas decente para investigación, aunque CUDA y ROCm siguen mandando en producción.

Por qué Nvidia sigue mandando

El hardware de AMD compite en papel, pero el factor decisivo es CUDA, la pila de software que Nvidia lleva afinando desde 2007. Frameworks como PyTorch, TensorFlow, JAX o vLLM tienen el camino más corto sobre CUDA, y todo el código de investigación reciente asume CUDA por defecto. AMD ha avanzado con ROCm 6 y con compatibilidad creciente con PyTorch, pero la migración real exige tiempo de ingeniería que muchas empresas no tienen.

El otro factor es el networking. Entrenar un modelo de cientos de miles de millones de parámetros requiere conectar miles de GPUs con muy poca latencia. NVLink, NVSwitch e InfiniBand de Nvidia (vía la compra de Mellanox) son hoy más difíciles de igualar que el chip individual. Por eso los racks GB200 NVL72 pasan por delante de comprar GPUs sueltas: el cuello de botella se ha movido de la GPU a la red entre GPUs. Para entender mejor cómo afecta esto a memoria y servidores, en revistacloud cuentan el caso de Montage y DDR5 disparado por los servidores de IA.

Qué GPU necesitas según el caso

No todo el mundo entrena GPT-5 desde cero. La elección depende del uso real:

Investigación y prototipos en local: RTX 4090 o 5090 con 24-32 GB. Permiten fine-tuning con LoRA y ejecución de modelos cuantizados sin pagar nube.
Inferencia productiva moderada: H100 PCIe o L40S en servidor propio, o instancias spot en AWS, GCP o cloud español tipo Stackscale.
Entrenamiento serio (10B+ parámetros): nodos H200 o MI300X conectados con InfiniBand. Aquí el coste por hora ronda los 4-8 dólares por GPU en cloud.
Frontera (modelos >100B): racks GB200 NVL72 o equivalentes. Solo está al alcance de OpenAI, Anthropic, Google, Meta, xAI y un puñado de gobiernos.

Limitaciones que conviene tener presentes

El acceso a GPUs de gama alta sigue siendo el cuello de botella número uno del sector. Los plazos de entrega de Blackwell se mueven entre seis meses y un año, los precios por unidad se cuentan en decenas de miles de dólares y los controles de exportación de EEUU restringen las versiones más potentes a China desde 2022 (con sucesivas vueltas de tuerca en 2023 y 2025). El consumo eléctrico de un rack GB200 ronda los 120 kW; un centro de datos con 100.000 GPUs Blackwell puede pedir más electricidad que una ciudad mediana, lo que está moviendo a hiperescalares hacia contratos directos con nucleares y geotermia.

Preguntas frecuentes

¿Sirve una RTX 4090 o 5090 para entrenar IA? Para investigación, prototipos y fine-tuning con LoRA o QLoRA, sí. Para preentrenar un LLM desde cero con miles de millones de parámetros, no llega. La memoria de 24-32 GB se queda corta y falta NVLink para escalar a varias GPUs con eficiencia.

¿Qué diferencia hay entre Hopper y Blackwell? Blackwell duplica el silicio (dos chips en un paquete), añade soporte nativo para FP4, sube la memoria HBM3e hasta 192 GB en B200 y mejora NVLink hasta 1,8 TB/s. En cargas de inferencia con modelos grandes la mejora real va de 2,5x a 5x según test.

¿Puede AMD competir con Nvidia en IA? En hardware, sí. La MI300X tiene más memoria que la H100 y la MI325X iguala a Hopper en muchas cargas. El problema es CUDA: ROCm avanza pero todavía pierde en compatibilidad y madurez. Microsoft y Meta han empujado adopción durante 2024-2025, así que la brecha se está cerrando.

¿Qué son los TFLOPS y por qué importan? Son billones de operaciones en coma flotante por segundo. En IA suelen indicarse en distintas precisiones (FP64, FP32, FP16, FP8, FP4); cuanto más baja la precisión, más TFLOPS y menos memoria, a costa de algo de calidad. Los modelos modernos entrenan en FP8 y se sirven en FP4 para ahorrar.

¿Qué cuesta entrenar un modelo grande hoy? El entrenamiento de un Llama 3 70B costó alrededor de 6 millones de dólares en cómputo. Un GPT-4 se mueve en cifras estimadas de 60-100 millones. Con Blackwell ese coste baja, pero los modelos también crecen, así que el gasto total del sector sigue subiendo.