La GPU NVIDIA H100 Tensor Core, basada en la arquitectura Hopper, se ha convertido en la opción de referencia para entrenar e inferir modelos de lenguaje grande (LLM) y sistemas de recomendación. Desde su lanzamiento en otoño de 2022, compañías como OpenAI, Meta, Stability AI, Twelve Labs y Anlatan la han adoptado para acelerar sus cargas de trabajo más exigentes.
Por qué la H100 es distinta a la A100
La H100 es 9 veces más rápida que la A100 en entrenamiento de IA y hasta 30 veces más rápida en inferencia sobre LLM, según NVIDIA. El salto viene en gran parte del Transformer Engine con precisión FP8 y los Tensor Cores de cuarta generación, que permiten más operaciones por ciclo con menor consumo energético. La memoria HBM3 llega a 80 GB por GPU con un ancho de banda de 3 TB/s, frente a los 2 TB/s de la A100 en su versión NVLink.

Qué la usan Meta, OpenAI y Stability AI
OpenAI usa las H100 para entrenar y ejecutar sistemas como ChatGPT. Meta las usa en su sistema Grand Teton para acelerar modelos recomendadores de aprendizaje profundo y la comprensión de contenido. Stability AI las emplea para sus modelos de generación de imágenes. Jensen Huang, CEO de NVIDIA, anunció en el GTC de este año que las supercomputadoras DGX H100 ya estaban en producción para su distribución a empresas de todo el mundo.
Los sistemas DGX H100 pueden alojar hasta 8 GPU H100, conectadas mediante NVLink de cuarta generación e integradas con redes NVIDIA Quantum InfiniBand o Spectrum Ethernet. El conjunto ofrece hasta 32 petaflops de rendimiento en precisión FP8.
Características técnicas clave
Además del rendimiento en precisión FP8, la H100 incorpora la tecnología MIG (Multi-Instance GPU) mejorada, que permite dividir una sola GPU en hasta 7 instancias independientes de 10 GB cada una. Esto hace más eficiente la inferencia de modelos más pequeños y maximiza la utilización del hardware en entornos cloud.
En seguridad, NVIDIA ha añadido cifrado de memoria a nivel de hardware con Infinity Guard, que funciona en tiempo real sin penalizar el rendimiento. La tarjeta es compatible con CUDA 12 y admite PCIe Gen5, que duplica el ancho de banda de interconexión respecto a la generación anterior.
El impacto de este tipo de hardware va más allá de los grandes laboratorios. Como analiza el mercado de semiconductores, la demanda de materiales para chips impulsada por la IA llevó el sector a un récord de 73.200 millones de dólares en 2025. El ciclo que empezó con las H100 en 2023 sigue acelerando toda la cadena de producción de silicio.
Para entender cómo este hardware se traduce en aplicaciones concretas, la expansión de la IA local y los modelos abiertos refleja el otro extremo del espectro: qué ocurre cuando los modelos se optimizan para correr en hardware menos potente que una H100.
Comparativa A100 vs H100
| Características | A100 NVLink | A100 PCIe | H100 SXM | H100 PCIe |
|---|---|---|---|---|
| FP64 | 9,7 TF | 9,7 TF | 30 TF | 24 TF |
| Tensor Core FP64 | 19,5 TF | 19,5 TF | 60 TF | 48 TF |
| FP32 | 19,5 TF | 19,5 TF | 60 TF | 48 TF |
| Tensor Core FP32 | 156 TF | 312 TF** | 156 TF | 312 TF** | 1000 TF* | 800 TF* |
| Tensor Core BFLOAT16 | 312 TF | 624 TF** | 312 TF | 624 TF** | 2000 TF* | 1600 TF* |
| Tensor Core FP16 | 312 TF | 624 TF** | 312 TF | 624 TF** | 2000 TF* | 1600 TF* |
| Tensor Core FP8 | — | — | 4000 TF* | 3200 TF* |
| Tensor Core INT8 | 624 TOPS | 1.248 TOPS** | 624 TOPS | 1.248 TOPS** | 4.000 TOPS* | 3.200 TOPS* |
| Memoria GPU | 40 GB | 80 GB | 40 GB | 80 GB | 80 GB |
| Ancho de banda de memoria | 1.555 GB/s | 2.039 GB/s | 1.555 GB/s | 3 TB/s | 2 TB/s |
| TDP máximo | 400 W | 250 W | 700 W | 350 W |
| MIG | Hasta 7 instancias de 10 GB | Hasta 7 instancias de 5 GB | Hasta 7 instancias de 10 GB | — |
| Interconexión | NVLink 600 GB/s / PCIe 4.0 64 GB/s | NVLink 600 GB/s / PCIe 4.0 64 GB/s | NVLink 900 GB/s / PCIe 5.0 128 GB/s | NVLink 600 GB/s / PCIe 5.0 128 GB/s |
Preguntas frecuentes
¿Cuánto más rápida es la H100 respecto a la A100?
9 veces más rápida en entrenamiento y hasta 30 veces más en inferencia sobre LLM, según los datos publicados por NVIDIA.
¿Qué es la precisión FP8?
FP8 (floating point de 8 bits) es un formato numérico que reduce a la mitad la precisión respecto a FP16 pero permite el doble de operaciones por segundo. Es especialmente eficiente para inferencia de LLM donde la precisión completa no es necesaria.
¿Qué es MIG (Multi-Instance GPU)?
Una tecnología que divide una sola GPU H100 en hasta 7 instancias independientes, cada una con sus propios recursos de memoria y cómputo. Permite ejecutar varias cargas de trabajo en paralelo en el mismo chip sin que interfieran entre sí.
¿Qué diferencia hay entre la H100 SXM y la H100 PCIe?
La versión SXM va en sistemas propietarios tipo DGX y usa NVLink a 900 GB/s, con TDP de 700 W. La versión PCIe es compatible con servidores estándar, con NVLink a 600 GB/s y TDP de 350 W, y ofrece menos rendimiento en cargas que requieren comunicación intensa entre GPUs.












