Implementación Eficiente de LLMs con vLLM y Amazon EC2 Usando Chips de IA de AWS

Elena Digital López

En el último año, la tecnología de grandes modelos de lenguaje (LLMs) y la inteligencia artificial generativa ha experimentado un auge significativo, transformando la accesibilidad y aplicación de estas herramientas en diversos sectores. La democratización de los LLMs ha sido impulsada por la disponibilidad de modelos potentes de acceso público y por desarrollos como vLLM en las plataformas AWS Trainium e Inferentia, que han permitido alojar LLMs para alcanzar un rendimiento y escalabilidad óptimos.

Recientemente, se ha presentado un innovador método para desplegar los modelos Llama de Meta, específicamente utilizando vLLM en la infraestructura de Amazon Elastic Compute Cloud (Amazon EC2). Este enfoque permite implementar modelos como Llama 3.2 de Meta en una instancia Inf2, ofreciendo instrucciones detalladas para configurar y optimizar el rendimiento de inferencias.

El proceso comienza con la necesidad de solicitar acceso al modelo a través de la plataforma Hugging Face, donde los usuarios deben registrarse, aceptar las condiciones de licencia y obtener un token de acceso, esencial para avanzar con el despliegue del modelo Llama-3.2-1B. Además, los usuarios deben crear un contenedor Docker para ejecutar vLLM, lo cual es posible gracias a la preinstalación de Docker en la AMI Deep Learning Neuron de Ubuntu 22.04, utilizada en la instancia EC2 Inferentia.

Para quienes se adentran por primera vez en el uso de instancias inf/trn en AWS, es vital solicitar un aumento de cuota. La guía recomienda utilizar el tipo de instancia inf2.xlarge, con disponibilidad limitada a ciertas regiones de AWS, y aumentar el volumen gp3 a 100 GB para manejar adecuadamente las cargas de trabajo.

Una vez configurada la instancia, el usuario se conecta a la línea de comandos para ejecutar una imagen de contenedor vLLM. El proceso de creación de la imagen es relativamente rápido, y en aproximadamente diez minutos permite iniciar el servidor vLLM, donde se pueden probar una serie de prompts.

El método sugiere también la posibilidad de enviar solicitudes de forma simultánea y automatizada, optimizando el uso de vLLM en Inferentia. Además, el proceso incluye la finalización adecuada de la instancia EC2 para evitar cargos adicionales innecesarios.

Un aspecto técnico crucial es el ajuste de rendimiento en inferencias de secuencias de longitud variable. El SDK Neuron juega un papel fundamental al generar cubos y gráficos de cálculo adaptables al tamaño de las secuencias, lo que mejora el rendimiento mediante la configuración adecuada de variables ambientales.

En resumen, la guía proporciona un método robusto y adaptable para desplegar modelos avanzados como el meta-llama/Llama-3.2-1B en infraestructuras escalables de nube. Esta metodología no solo es aplicable a Meta’s Llama, sino que puede ser extendida a otros LLMs populares, facilitando su integración en procesos productivos con autoscaling y tolerancia a fallos, elementos esenciales en la actualidad para maximizar la eficiencia y confiabilidad en la implementación de tecnologías basadas en inteligencia artificial.

Scroll al inicio