Acelerando la inferencia de Modelos de Lenguaje con ReDrafter en GPUs NVIDIA
La aceleración de la inferencia en modelos de lenguaje grande (LLMs, por sus siglas en inglés) es un desafío clave en la investigación de aprendizaje automático, ya que la generación auto-regresiva de tokens es costosa y relativamente lenta. Mejorar la eficiencia de inferencia puede reducir significativamente la latencia que experimentan los usuarios. Además de los esfuerzos para optimizar la inferencia



