Rufus Duplica Su Velocidad de Inferencia y Maneja el Tráfico de Prime Day con Chips de IA de AWS y Decodificación Paralela

Elena Digital López

La adopción de modelos de lenguaje de gran escala (LLMs) ha revolucionado la forma en que las personas interactúan con la tecnología. No obstante, su despliegue a gran escala presenta desafíos significativos, como la latencia en la inferencia y un throughput limitado, además de altos costos asociados a la generación de texto. Estos problemas se acentúan durante eventos de alta demanda, como el Amazon Prime Day, donde sistemas como Rufus, un asistente de compras impulsado por inteligencia artificial de Amazon, deben gestionar una carga inmensa y cumplir estrictos requisitos de latencia y rendimiento.

Rufus se construyó para asistir a los consumidores en la toma de decisiones de compra informadas, proporcionando respuestas a preguntas sobre productos y mejorando la experiencia de compra. Para ofrecer este nivel de servicio, Rufus se basa en un modelo LLM para generar respuestas y un modelo de planificación de consultas que optimiza la clasificación de preguntas y la recuperación de información. La eficiencia es clave, ya que la generación de texto solo puede comenzar una vez que el modelo de planificación ha completado su tarea.

Frente al Prime Day de 2024, Rufus se preparó para enfrentar el desafío de gestionar millones de consultas por minuto, generando miles de millones de tokens en tiempo real, todo mientras mantenía un compromiso de latencia de 300 ms. Esto exigió un replanteamiento fundamental de la implementación de LLMs a gran escala, superando así limitaciones de costos y rendimiento.

La estrategia de decodificación paralela resultó ser crucial en este proceso. Este método permite a Rufus generar múltiples tokens simultáneamente, dejando atrás las ineficiencias del enfoque secuencial tradicional. Durante este evento de compras, el equipo de Rufus mejoró su rendimiento utilizando chips de inteligencia artificial de AWS, los cuales no solo duplicaron la velocidad de generación de texto sino que también redujeron los costos de inferencia a la mitad.

Los resultados fueron impactantes: Rufus demostró una capacidad de respuesta rápida que mejoró significativamente la experiencia del cliente. Esta combinación de decodificación paralela y soluciones de AWS facilitó un despliegue eficiente que permitió gestionar el tráfico máximo sin comprometer la calidad de las respuestas.

La sinergia lograda mediante la implementación y optimización del modelo resalta el potencial de la inteligencia artificial para crear experiencias de compra más efectivas y fluidas. Mirando al futuro, la integración del marco Neuronx-Distributed Inference (NxDI) y los chips de AWS representa un avance significativo hacia la escalabilidad y viabilidad económica de los LLMs, prometiendo abrir nuevas oportunidades para aplicaciones futuras en el ámbito de la inteligencia artificial.

Scroll al inicio