Amazon Escala Rufus: Construyendo Inferencia Multi-Nodo Con Chips AWS Trainium y vLLM

Elena Digital López

En un avance significativo en el ámbito de la inteligencia artificial, Amazon ha presentado Rufus, un asistente de compras impulsado por IA generativa que ya está disponible para millones de usuarios. Aunque su implementación a gran escala conlleva desafíos considerables, la empresa ha logrado mantener interacciones de alta calidad, eficiencia en costos y baja latencia.

Para lograrlo, Amazon ha desarrollado una solución de inferencia multi-nodo utilizando sus chips Trainium y vLLM, una biblioteca de código abierto que mejora la eficacia en la entrega de modelos de lenguaje grandes (LLMs). A medida que el modelo de Rufus creció, se incrementó la necesidad de utilizar múltiples instancias de aceleradores, ya que un solo chip no puede albergar todo el modelo. Esto llevó a los ingenieros a innovar en la fragmentación y distribución del modelo a través de varios nodos, empleando técnicas como el paralelismo tensorial.

Para mejorar el rendimiento, se optimizó el uso de recursos de computación y memoria en múltiples nodos, sin afectar la latencia. Además, se creó una infraestructura que facilita la comunicación rápida entre nodos, asegurando una integración sólida de los componentes distribuidos.

La solución implementada por Amazon incluye una arquitectura de inferencia multi-nodo con un modelo de líder/seguidor. En esta configuración, el nodo líder se encarga de la programación de solicitudes, mientras que los nodos seguidores ejecutan los cálculos del modelo de manera distribuida. Esto permite que cada nodo tenga un camino de ejecución coherente, contribuyendo a la eficiencia del sistema.

Este diseño de despliegue ha permitido a Amazon manejar solicitudes a gran escala de forma efectiva, gracias a nodos colocados estratégicamente según la topología de red, lo que minimiza la latencia. Con esta infraestructura, Amazon ha logrado operar un modelo más grande en decenas de miles de chips Trainium, proporcionando una experiencia de compra innovadora y una mejora notable en la interacción de los usuarios.

Con estos avances, Amazon refuerza su posición en el ámbito de la inteligencia artificial, permitiendo que Rufus ofrezca un servicio de preguntas y respuestas en tiempo real, siempre disponible para los clientes.

Scroll al inicio