La aceleración de la inferencia en modelos de lenguaje grande (LLMs, por sus siglas en inglés) es un desafío clave en la investigación de aprendizaje automático, ya que la generación auto-regresiva de tokens es costosa y relativamente lenta. Mejorar la eficiencia de inferencia puede reducir significativamente la latencia que experimentan los usuarios. Además de los esfuerzos para optimizar la inferencia en Apple Silicon, Apple ha logrado avances significativos en la aceleración de la inferencia de LLM en GPUs NVIDIA, ampliamente utilizadas en aplicaciones de producción en toda la industria.
ReDrafter: Un Enfoque Innovador para la Decodificación Especulativa
A principios de este año, Apple presentó y liberó como código abierto el Recurrent Drafter (ReDrafter), un enfoque novedoso para la decodificación especulativa que establece un nuevo estándar en rendimiento. ReDrafter utiliza un modelo de red neuronal recurrente (RNN) como modelo de borrador y combina búsqueda de haz (beam search) con atención en árboles dinámicos para acelerar la generación de tokens hasta 3.5 tokens por paso de generación. Esto supera ampliamente a técnicas previas de decodificación especulativa.
Integración en Producción con NVIDIA TensorRT-LLM
El verdadero impacto de ReDrafter radica en su aplicación práctica. En colaboración con NVIDIA, Apple integró ReDrafter en el marco de aceleración de inferencia NVIDIA TensorRT-LLM. Este marco, ya conocido por soportar numerosos LLMs de código abierto y el método de decodificación especulativa Medusa, ahora incluye capacidades avanzadas gracias a ReDrafter.
La integración requirió que NVIDIA desarrollara nuevos operadores y mejorara otros existentes, permitiendo que TensorRT-LLM soporte algoritmos sofisticados como los utilizados en ReDrafter. Gracias a esto, los desarrolladores de ML que emplean GPUs NVIDIA ahora pueden aprovechar la generación acelerada de tokens en sus aplicaciones de producción.
Resultados de Benchmark y Beneficios Prácticos
En pruebas realizadas con un modelo de producción de decenas de miles de millones de parámetros, el uso de NVIDIA TensorRT-LLM con ReDrafter mostró un incremento de 2.7 veces en la velocidad de generación de tokens por segundo para decodificación ávida (greedy decoding). Este avance no solo reduce la latencia experimentada por los usuarios, sino que también permite utilizar menos GPUs y consumir menos energía, haciendo las operaciones más sostenibles.
Conclusión: Avances hacia una Inferencia Más Rápida
Los LLMs están transformando las aplicaciones de producción, y mejorar la eficiencia de inferencia tiene un impacto directo en los costos computacionales y la experiencia del usuario. La integración de ReDrafter en NVIDIA TensorRT-LLM representa un paso importante hacia una generación de tokens más rápida en GPUs NVIDIA, beneficiando tanto a desarrolladores como a usuarios finales.
Contribuyentes: Este proyecto contó con las aportaciones de investigadores destacados como Aonan Zhang, Xuanyu Zhang, Yunfei Cheng, Chong Wang, Yi Wang, Abhishek Udupa, Dhaval Doshi y colaboradores de NVIDIA.