Por qué los FPGAs pueden superar a las GPUs en inferencia de LLMs a gran escala

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

La escasez de GPUs de alto rendimiento durante 2023 y el coste de las NVIDIA H100 —que en ese momento superaba los 44.000 dólares en el mercado minorista— llevó a muchos equipos de ingeniería a evaluar alternativas. Los FPGAs (Field-Programmable Gate Arrays) emergieron como candidatos serios, sobre todo para cargas de trabajo de inferencia con restricciones de latencia, según se expuso en la conferencia SC23 de supercomputación.

El cuello de botella de la GPU en inferencia de un solo usuario

Las GPUs son eficientes cuando el tamaño del lote (batch) es grande: se procesan muchas peticiones en paralelo y se amortiza el coste de llenar los núcleos del chip. El problema surge con el batch size bajo o de 1, que es exactamente el escenario de un usuario interactuando con un chatbot o una API de inferencia en tiempo real.

En ese caso, la GPU arrastra más latencia de la necesaria porque su arquitectura está pensada para procesamiento masivo en paralelo, no para responder una sola consulta con la mínima demora. También depende de cantidades elevadas de memoria de sistema para mantener los parámetros del modelo accesibles, lo que encarece el despliegue.

Cómo los FPGAs construyen rutas de datos a medida

A diferencia de las GPUs, cuya arquitectura es fija, los FPGAs pueden reconfigurarse para construir rutas de datos personalizadas ajustadas al modelo de red neuronal concreto. Esto permite ejecutar múltiples operaciones en múltiples bloques de datos de forma simultánea con un tamaño de lote de 1, logrando latencia en tiempo real sin requerir acumulación de peticiones.

El resultado práctico es una utilización de los TeraOps por segundo (TOPs) del chip significativamente mayor que en una GPU equivalente, y esa brecha se amplia a medida que el modelo LLM crece en complejidad y parámetros.

Los datos de Achronix: 2-7x sobre GPUs en inferencia LLM

La empresa Achronix presentó en SC23 los números de sus FPGAs Speedster7t en escenarios de inferencia con modelos de lenguaje grande. Las cifras son específicas y vale la pena citarlas:

Con precisión FP16 y más de ocho dispositivos: 2-3x el rendimiento de GPU y 2-4x menor latencia.
Con precisión INT8: ventaja de 2-7x en rendimiento frente a GPU.

Estas cifras se producen en condiciones específicas (inferencia a gran escala, baja latencia requerida) y no son extrapolables a entrenar modelos, donde las GPUs y los aceleradores especializados como las TPU de Google siguen siendo la referencia.

Speedster7t: la arquitectura que hace posible esos números

El Speedster7t incorpora una red 2D en chip (2D NoC) que mueve datos a través del dispositivo sin consumir recursos computacionales del propio FPGA. Cuenta con grandes bloques de procesadores de aprendizaje automático (MLPs) con memoria embebida de alta densidad, lo que permite reutilizar resultados intermedios entre cálculos y reduce la necesidad de ir a memoria externa en cada operación.

Para el acceso a parámetros del modelo, el Speedster7t puede conectar hasta ocho bancos de memoria GDDR6 externa, con un ancho de banda de carga de parámetros de hasta 4 Tbps. En modelos con decenas de miles de millones de parámetros, ese ancho de banda marca la diferencia entre un sistema que satura su memoria y uno que no.

El contexto de costes: FPGAs frente a la escasez de H100

En 2023, conseguir una NVIDIA H100 era complicado y caro. La escasez de suministro mantuvo los precios muy por encima de los de catálogo, y los plazos de entrega se alargaban meses. Los FPGAs de alta gama no son baratos, pero eran más accesibles en ese momento tanto en precio como en disponibilidad.

La discusión sigue siendo relevante: la demanda de hardware para inferencia de LLMs ha seguido creciendo desde entonces, y la búsqueda de alternativas a las GPUs de NVIDIA está detrás de la aparición de nuevos actores en chips para IA. Para más contexto sobre cómo la infraestructura de IA está evolucionando, puedes consultar cómo la Declaración de Bletchley aborda los riesgos de los modelos frontier o las obligaciones de transparencia sobre IA que llegan en 2026.

Vía: SC23 Supercomputing

Preguntas frecuentes sobre FPGAs e inferencia de LLMs

¿Qué es un FPGA y en qué se diferencia de una GPU?

Un FPGA (Field-Programmable Gate Array) es un chip reconfigurable que puede construir rutas de datos a medida para cada aplicación concreta. Una GPU tiene arquitectura fija optimizada para paralelismo masivo. Para inferencia de LLMs con baja latencia y batch pequeño, el FPGA puede ser más eficiente.

¿Cuándo conviene usar FPGAs en vez de GPUs para IA?

Los FPGAs tienen ventaja en inferencia con restricciones de latencia y tamaños de lote pequeños, como respuesta en tiempo real a usuarios individuales. Las GPUs siguen siendo superiores para entrenamiento de modelos o inferencia con lotes grandes.

¿Qué es el Speedster7t de Achronix?

Es un FPGA de alta gama con una red 2D en chip (2D NoC), grandes bloques de MLPs y soporte para hasta ocho bancos de memoria GDDR6 externa con 4 Tbps de ancho de banda. Está diseñado específicamente para cargas de trabajo de inferencia de LLMs.

¿Qué mejora de rendimiento ofrecen los FPGAs de Achronix frente a GPUs en LLMs?

Según los datos presentados en SC23, entre 2-3x en rendimiento y 2-4x menor latencia con precisión FP16 en inferencia de gran escala. Con precisión INT8, la ventaja llega a 2-7x en rendimiento frente a GPU.