Hoy se ha dado a conocer con gran entusiasmo el lanzamiento de la versión 15 del contenedor de Amazon SageMaker Large Model Inference (LMI), que ahora cuenta con la versión 0.8.4 de vLLM y es compatible con el motor vLLM V1. Esta actualización soporta los últimos modelos de código abierto, como Llama 4 de Meta, los modelos Scout y Maverick, Gemma 3 de Google, Qwen de Alibaba, Mistral AI y DeepSeek-R, entre otros. Amazon SageMaker AI continúa expandiendo sus capacidades de inferencia en inteligencia artificial generativa para satisfacer la creciente demanda de rendimiento y compatibilidad con modelos avanzados.
La reciente versión aporta importantes mejoras en el rendimiento, una mayor compatibilidad con modelos multimodales —capaces de interpretar y analizar datos de texto a texto, de imágenes a texto y de texto a imágenes— y ofrece una integración incorporada con vLLM para facilitar el despliegue y servicio de modelos de lenguaje de gran tamaño (LLMs) a gran escala.
Entre las novedades se incluyen múltiples mejoras que optimizan tanto el rendimiento como la usabilidad. La inclusión de un modo asíncrono que se integra con el motor AsyncLLMEngine de vLLM optimiza el manejo de solicitudes mediante la creación de un bucle de fondo más eficiente que procesa de manera continua las peticiones entrantes. Este modo permite gestionar múltiples solicitudes concurrentes y transmitir salidas con un rendimiento superior al implementado en la versión 14.
Asimismo, el nuevo motor vLLM V1 aporta hasta un 111% más de rendimiento comparado con el motor anterior V0 para modelos de menor tamaño en situaciones de alta concurrencia. Estas mejoras se logran mediante la disminución de la carga de CPU, la optimización de rutas de ejecución y el uso más eficaz de los recursos. Aunque la versión 15 de LMI favorece automáticamente el uso del motor V1, sigue siendo posible regresar al motor V0 ajustando las configuraciones necesarias.
Adicionalmente, se ha ampliado el soporte para esquemas de API con tres opciones flexibles para una integración armoniosa con aplicaciones basadas en patrones de API reconocidos, y se han implementado mejoras para modelos de visión y lenguaje que incluyen un sistema de almacenamiento en caché multiplataforma.
La actualización LMI v15 soporta los modelos de última generación como Llama 4 y Gemma 3, demostrando que el motor V1 proporciona ventajas de rendimiento significativas en distintas pruebas, con mejoras que fluctúan entre un 24% y un 111%.
La nueva versión del contenedor de Amazon SageMaker LMI representa un avance destacado en las capacidades de inferencia de grandes modelos. Gracias al nuevo motor vLLM V1, su modo de operación asíncrono y un mayor soporte para modelos, los usuarios pueden implementar LLMs de vanguardia con un rendimiento y flexibilidad superiores. Esta actualización invita a los interesados a explorar su potencial para el despliegue de sus modelos de inteligencia artificial generativa.