NVIDIA DGX Cloud: entrenar un LLM por 36.000 €/mes

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

NVIDIA ha lanzado DGX Cloud, un servicio de alquiler de capacidad de computación en la nube que permite acceder a servidores DGX sin comprarlos. Cada instancia incluye ocho GPUs H100 o A100 y 640 GB de memoria; el precio de entrada ronda los 36.000 euros al mes. La infraestructura puede escalar hasta 32.000 GPUs para proyectos de mayor envergadura.

El contexto que explica este lanzamiento es el coste del entrenamiento de modelos de lenguaje grandes (LLM). Microsoft, por ejemplo, invirtió cientos de millones de dólares en tarjetas NVIDIA A100 para entrenar ChatGPT e integrarlo en Bing. DGX Cloud no elimina esos costes, pero cambia quién puede acceder a esa potencia: ya no hace falta comprar el hardware.

Qué es DGX Cloud y cómo funciona

DGX Cloud da a los clientes versiones virtuales de los servidores físicos DGX de NVIDIA, los mismos que usan los laboratorios de investigación más grandes. La unidad básica son ocho GPUs de última generación, que pueden ser H100, la arquitectura Hopper de NVIDIA orientada a cargas de IA, o A100, la generación anterior.

El servicio escala por bloques: se pueden combinar instancias hasta alcanzar los 32.000 GPUs si el proyecto lo requiere. La facturación es mensual, lo que permite ajustar la capacidad según las fases del proyecto, algo que con hardware propio es prácticamente imposible.

Cuánto cuesta entrenar un modelo propio

Para poner en contexto los 36.000 euros mensuales de DGX Cloud, conviene mirar lo que han gastado los grandes. Google destinó entre 9 y 23 millones de dólares para entrenar PaLM, su modelo con 540.000 millones de parámetros. Meta entrenó LLaMA durante 21 días en 2.048 GPUs A100, con un gasto estimado de cuatro millones de dólares.

En el otro extremo está MosaicML, empresa especializada en entrenamiento eficiente de modelos. Su propuesta es desarrollar un chatbot comparable a GPT-3 por menos de 500.000 dólares, lo que supone una reducción drástica frente a lo que costó a OpenAI entrenar los modelos originales. DGX Cloud no compite con MosaicML: son capas distintas. NVIDIA ofrece la infraestructura; MosaicML (u otros proveedores) ofrece la eficiencia del proceso de entrenamiento encima de esa infraestructura.

Para quién tiene sentido

La propuesta de NVIDIA apunta a organizaciones con recursos suficientes pero sin la escala de Microsoft o Google: startups que han cerrado una ronda importante, centros de investigación universitarios con financiación pública, o empresas medianas que quieren construir modelos propios en vez de depender de APIs de terceros.

El alquiler mensual evita el problema del capex: comprar un servidor DGX físico supera el medio millón de euros y queda obsoleto en dos o tres años. Con DGX Cloud la empresa paga solo por el tiempo que necesita y accede siempre a la generación de hardware vigente.

Limitaciones que no hay que perder de vista

36.000 euros al mes son 432.000 euros al año, y eso con la configuración mínima de ocho GPUs. Un entrenamiento serio de un modelo mediano puede requerir semanas en cientos o miles de GPUs, lo que multiplica la factura varias veces. Además, el acceso a la infraestructura no resuelve los otros problemas del entrenamiento: datos de calidad, equipos con experiencia en ML y pipelines de evaluación.

Por otro lado, la inferencia de IA —servir el modelo a usuarios reales una vez entrenado— es también una carga costosa que hay que planificar por separado.

El modelo de negocio que se reorganiza

Este tipo de inversiones está redefiniendo cómo se financian las empresas del sector. OpenAI, que empezó como organización sin ánimo de lucro, ha ido virando hacia un modelo comercial con el lanzamiento de GPT-4 y su API de pago. El coste de entrenar y servir modelos exige ingresos recurrentes.

NVIDIA, por su parte, se beneficia de ambos lados: vende hardware a los que entrenan y ahora también cobra por el acceso en la nube. DGX Cloud amplía su mercado sin canibalizar las ventas de tarjetas físicas, porque los clientes de la nube y los que compran servidores raramente coinciden.

Preguntas frecuentes

¿Cuántas GPUs incluye la opción básica de DGX Cloud?

Ocho tarjetas gráficas NVIDIA H100 o A100, con un total de 640 GB de memoria GPU.

¿Cuánto cuesta entrenar un modelo comparable a GPT-3?

MosaicML ha presentado procesos que lo sitúan por debajo de los 500.000 dólares. El coste depende del número de parámetros, el volumen de datos y la eficiencia del pipeline de entrenamiento.

¿Cuál es la diferencia entre H100 y A100?

La H100 es la arquitectura Hopper de NVIDIA, diseñada para cargas de IA generativa y entrenamiento de LLM. La A100 es la generación anterior (arquitectura Ampere) con menor rendimiento por GPU, aunque válida para muchos casos de uso.

¿DGX Cloud reemplaza comprar hardware propio?

Depende del volumen de trabajo. Para proyectos puntuales o equipos que no quieren gestionar infraestructura física, el alquiler es más flexible. Para cargas de producción continuas con alta demanda, el hardware propio puede salir más económico a largo plazo.

¿Qué diferencia hay entre DGX Cloud y AWS o Google Cloud para entrenar LLM?

DGX Cloud da acceso directo a hardware DGX de NVIDIA sin la capa de virtualización habitual de los clouds generalistas. Está optimizado para cargas de entrenamiento de modelos y ofrece rendimiento más predecible para ese tipo de trabajo.