En un entorno donde los modelos de lenguaje grandes (LLMs) y la inteligencia artificial generativa (GenAI) están marcando un punto de inflexión para la informática de alto rendimiento (HPC), la conferencia SC23 se convierte en un espacio de celebración para la comunidad HPC que ha permitido que la revolución de la GenAI comience a desplegarse.
Esta revolución, aún en sus etapas iniciales, tiene el potencial de impactar de manera significativa en negocios, educación y ciencia, abriendo un nuevo capítulo en la industria tecnológica. Las organizaciones se apresuran a entender cómo aprovechar las ganancias de productividad que esta tecnología promete.
Sin embargo, hay obstáculos que superar. Uno de ellos es la escasez y el alto costo de los chips, como las GPUs, que generalmente habilitan la GenAI. Las NVIDIA H100 de última generación, por ejemplo, pueden costar decenas de miles de dólares, con precios que rondan los 44,000 dólares en tiendas de retail en línea.
Afortunadamente, existe una alternativa ante el elevado precio y la larga espera de las GPUs: los FPGAs (Field-Programmable Gate Arrays). Estos no solo son más abundantes y económicos, sino que para la inferencia de GenAI y LLM a gran escala, que requiere baja latencia, los FPGAs a menudo ofrecen una solución mejor que las GPUs.
Requisitos de la GenAI y LLMs
La GenAI y los LLMs se basan en técnicas de aprendizaje profundo, especialmente en arquitecturas transformadoras. Estos modelos de redes neuronales capturan dependencias en secuencias de datos. Entrenar LLMs con miles de millones de parámetros exige una cantidad inmensa de poder computacional y memoria. Las organizaciones con recursos computacionales limitados a menudo encuentran dificultades para aprovechar el potencial completo de estos modelos debido a la necesidad de procesamiento vasto o al costo de entrenar LLMs en plataformas de nube pública.
Interfaz a Gran Escala
Es en la inferencia a gran escala de la GenAI donde los FPGAs destacan y las GPUs se quedan cortas. Las GPUs, con arquitecturas bloqueadas por grupos de ejecución, llevan a cabo operaciones de múltiples hilos sobre múltiples núcleos en paralelo; esto requiere agrupar grandes cantidades de datos para mantener la tubería llena, lo que se traduce en más latencia y una mayor demanda de memoria del sistema.
Los FPGAs construyen rutas de datos personalizadas que pueden actualizarse en tiempo real para ejecutar múltiples instrucciones en múltiples bloques de datos simultáneamente. Esto permite que los procesos operen de manera eficiente incluso con un tamaño de lote de 1, logrando latencia en tiempo real mientras se minimizan los requisitos de memoria externa. Por lo tanto, un FPGA es capaz de una utilización significativamente mayor de sus TOPs que las arquitecturas competidoras, y esta brecha de rendimiento solo aumenta a medida que la complejidad del modelo LLM crece y se requieren más recursos computacionales para proporcionar resultados de inferencia.
Cuando las operaciones de inferencia en Modelos de Lenguaje Grandes, utilizando el formato de número FP16, requieren más de ocho dispositivos para entregar resultados oportunos, los FPGAs de Achronix pueden proporcionar de 2 a 3 veces (2-3x) el rendimiento de las GPUs y de 2 a 4 veces (2-4x) menor latencia. Si el modelo de inferencia LLM puede aprovechar la precisión INT8, entonces el FPGA de Achronix tiene una ventaja aún más significativa, proporcionando de 2 a 7 veces (2-7x) el rendimiento de las GPUs.
Además de superar a las GPUs en rendimiento de inferencia, los FPGAs Speedster7t® cuentan con una arquitectura única con una red 2D en chip (2D NoC) que acelera los datos hacia, desde y a través del dispositivo sin consumir recursos computacionales del FPGA. Los FPGAs Speedster7t ofrecen grandes arreglos de procesadores de aprendizaje automático (MLPs) con memoria en bloque estrechamente acoplada que permite la reutilización eficiente de resultados entre cálculos y formatos de números seleccionables por el cliente para optimizar el rendimiento de inferencia. Para acelerar el acceso a la memoria, a diferencia de otros FPGAs, los Speedster7t pueden interfaz con hasta ocho bancos de memoria externa GDDR6, lo que permite un ancho de banda mucho mayor y es capaz de cargar parámetros a 4 Tbps.
Así, en la carrera hacia la adopción de inteligencia artificial a gran escala, los FPGAs se perfilan no solo como una alternativa económica, sino también como la opción superior en términos de rendimiento para muchos casos de uso de inferencia en GenAI y LLMs.
vía: SC23 Supercomputing