Qué son los TFLOPS y para qué sirven en GPU e IA

Q: ¿Cuánto es exactamente 1 TFLOPS?

Un TFLOPS equivale a 1012 operaciones de coma flotante por segundo, es decir, un billón en la escala larga que se usa en español de España (un millón de millones). En la escala corta anglosajona se traduce como un trillion, lo que provoca confusiones habituales en traducciones automáticas.

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Los TFLOPS (TeraFLOPS, del inglés tera floating-point operations per second) son la unidad que mide cuántas operaciones de coma flotante puede ejecutar un chip cada segundo, expresadas en billones. Un teraflop equivale a 10¹² operaciones por segundo, es decir, un millón de millones, y se ha convertido en la cifra que las marcas de GPU repiten en cada lanzamiento para presumir de potencia bruta. Conviene mirarla con cuidado, porque el mismo chip puede dar resultados muy distintos según con qué precisión se cuente.

De los FLOPS a los TFLOPS: qué se está midiendo

Un FLOP es una operación de coma flotante, ese tipo de cálculo con decimales que necesita gráficos 3D, simulaciones científicas y, sobre todo, redes neuronales. Cuando se habla de TFLOPS se está midiendo el ritmo máximo teórico al que un procesador puede encadenar esas operaciones, asumiendo que toda la maquinaria interna funciona a pleno rendimiento. La cifra final depende del número de núcleos especializados, de la frecuencia a la que trabajan y de la precisión empleada en cada operación.

Esa última parte es la que más confunde. No es lo mismo un TFLOP en FP64 (doble precisión, usada en HPC científico) que en FP32 (precisión simple, gráficos y entrenamiento clásico) o en FP16, BF16, FP8 y FP4 (formatos reducidos pensados para acelerar el entrenamiento y la inferencia de modelos de IA). A medida que baja la precisión, suben los TFLOPS, porque la misma circuitería puede empaquetar más operaciones por ciclo si cada operación ocupa menos bits.

Cuántos TFLOPS tienen las GPU actuales

Para hacerse una idea del orden de magnitud, una NVIDIA A100 ronda los 19,5 TFLOPS en FP32 y se va hasta unos 312 TFLOPS cuando se usan los Tensor Cores en FP16. Su sucesora, la H100 SXM, sube a unos 67 TFLOPS en FP32, cerca de 989 TFLOPS en BF16/FP16 con sparsity y casi 2.000 TFLOPS en FP8, el formato favorito de los grandes modelos de lenguaje. En el lado consumo una RTX 4090 roza los 83 TFLOPS en FP32 y la AMD Radeon RX 7900 XTX se queda en torno a 61 TFLOPS en la misma precisión.

Estas cifras explican por qué un chip diseñado para IA no se compara directamente con uno pensado para juegos. Una GPU para Inteligencia Artificial prioriza Tensor Cores y formatos reducidos, mientras que una tarjeta gaming da preferencia al rasterizado y al ray tracing. Los teraflops nominales pueden parecer parecidos en FP32 y dispararse en FP16 o FP8, donde se juega buena parte del entrenamiento y la inferencia.

Por qué los TFLOPS importan en IA

Entrenar un modelo de lenguaje grande implica multiplicar matrices enormes durante semanas o meses. Cada matriz se descompone en miles de millones de multiplicaciones y sumas en coma flotante, así que la potencia bruta del chip marca cuánto tarda una época de entrenamiento o cuántos tokens por segundo genera un modelo en producción. De ahí que los nuevos centros de datos para IA midan su capacidad en peta y exaflops, no ya en teraflops sueltos.

El detalle es que los TFLOPS en bruto son una condición necesaria, no suficiente. Un modelo de 80.000 millones de parámetros no entra en VRAM aunque la GPU sea muy rápida, y por eso aparecen trucos para correr modelos grandes en GPU de consumo usando SSD como memoria extendida. Si el ancho de banda de memoria, la HBM o la red entre GPU no acompañan, los teraflops sobrantes se quedan esperando datos.

Del TFLOP al ExaFLOP: la escala HPC

Cuando se juntan miles de GPU en un mismo clúster, los TFLOPS dejan de ser la unidad cómoda. Se pasa a petaFLOPS (1.000 TFLOPS) y luego a exaFLOPS (un millón de TFLOPS). El supercomputador Frontier, en Oak Ridge, fue el primero en superar el exaflop sostenido en el benchmark HPL en 2022, y desde entonces la carrera ha seguido subiendo. China acaba de presentar su apuesta en este terreno con Lingsheng, un superordenador exaescala para IA y ciencia, que confirma que la frontera se ha movido del teraflop al exaflop en menos de tres décadas.

En el plano comercial sistemas como un DGX B200 dedicado a inferencia mueven cientos de petaflops en formatos reducidos sin salir de un solo rack. Una CPU de hace veinte años se medía en gigaflops; hoy una GPU de gama alta hace en un segundo lo que aquella necesitaba mil segundos para completar.

Limitaciones del TFLOP como métrica

Los teraflops anunciados por el fabricante son un techo teórico, no lo que verás en una carga real. El rendimiento útil depende del ancho de banda de memoria, del tamaño de los lotes, de la calidad del kernel, del scheduler y de cuánto tiempo pasa el chip esperando datos. Es habitual ver cargas que aprovechan menos del 50 % de los TFLOPS nominales, sobre todo en inferencia con lotes pequeños. Antes de comparar dos GPU conviene mirar también la memoria HBM, su ancho de banda en TB/s y los benchmarks reales en MLPerf, no solo el número grande de la portada.

Preguntas frecuentes sobre los TFLOPS

¿Cuánto es exactamente 1 TFLOPS?

Un TFLOPS equivale a 10¹² operaciones de coma flotante por segundo, es decir, un billón en la escala larga que se usa en español de España (un millón de millones). En la escala corta anglosajona se traduce como un trillion, lo que provoca confusiones habituales en traducciones automáticas.

¿Más TFLOPS significa siempre más velocidad real?

No siempre. Es un máximo teórico que depende de la precisión usada y de que el resto del sistema (memoria, ancho de banda, software) acompañe. Dos GPU con TFLOPS parecidos pueden dar resultados muy distintos en un mismo modelo si una tiene más memoria HBM o mejor soporte de FP8.

¿Por qué se dan los TFLOPS en varias precisiones?

Porque el mismo chip rinde diferente según el formato. FP64 sirve para HPC científico, FP32 para gráficos y entrenamiento clásico, y FP16, BF16, FP8 o FP4 para acelerar entrenamiento e inferencia de modelos de lenguaje. Bajar precisión multiplica los TFLOPS, pero introduce pérdida que hay que compensar con técnicas como Tensor Cores y cuantización.

¿Qué relación hay entre TFLOPS, petaFLOPS y exaFLOPS?

Un petaFLOP son 1.000 teraflops y un exaFLOP equivale a 1.000 petaflops o un millón de teraflops. Las GPU se miden en TFLOPS, los racks de IA en PFLOPS y los superordenadores top mundiales ya se mueven en EFLOPS, como Frontier o el chino Lingsheng.

¿Sirven los TFLOPS para comparar gaming e IA?

Solo en parte. Una RTX 4090 puede tener TFLOPS en FP32 cercanos a una GPU profesional, pero le faltan memoria HBM, ancho de banda y capacidades como NVLink o FP8 a gran escala que sí tienen las H100 o las B200. Para juegos, los teraflops en FP32 y la rasterización mandan; para entrenar IA, lo que cuenta es la suma de Tensor Cores, memoria y red.