Amazon SageMaker Lanza Kit de Optimización de Inferencias Mejorado para IA Generativa

Elena Digital López

En un innovador avance para la inteligencia artificial, Amazon SageMaker ha anunciado actualizaciones significativas para su herramienta de optimización de inferencia, diseñada para optimizar los modelos generativos de IA con mayor rapidez y eficiencia. Estas mejorías incorporan nuevas capacidades de decodificación especulativa, soporte para la cuantificación FP8, y la posibilidad de compilar con TensorRT-LLM. Esto permite una optimización más eficiente y una implementación más rápida de modelos de IA generativa en instancias de Amazon SageMaker.

Una de las principales novedades es la inclusión de decodificación especulativa para los modelos Meta Llama 3.1, lo cual acelera el proceso de inferencia. Esta técnica utiliza un modelo de lenguaje más pequeño y veloz para generar tokens candidatos que posteriormente son validados por un modelo objetivo más grande y preciso. Este método reduce considerablemente el tiempo de generación de respuesta al permitir evaluaciones paralelas del modelo de enfoque.

Además, las mejoras abarcan soporte para la cuantización FP8 en modelos de aprendizaje profundo, reduciendo el tamaño de los modelos y mejorando la latencia de inferencia en GPUs. La cuantificación FP8 proporciona ventajas como menor uso de memoria, mayor velocidad de cálculo y un consumo energético más bajo, resultando especialmente ventajosa para componentes clave de los modelos como el KV cache y las capas lineales MLP.

La herramienta también ha sido actualizada para permitir la compilación con NVIDIA TensorRT-LLM, optimizando modelos mediante la compilación anticipada. Esto disminuye el tiempo de despliegue del modelo y la latencia de autoescalado al eliminar la necesidad de compilación en tiempo real cuando el modelo se despliega en nuevas instancias.

Estas actualizaciones, junto con las capacidades preexistentes de la herramienta, permiten a los usuarios optimizar sus modelos de IA generativa rápidamente, reduciendo los plazos de meses a horas y logrando un rendimiento de clase mundial para cada caso de uso. Los usuarios pueden aplicar las técnicas de optimización disponibles, validar las mejoras y desplegar los modelos a través de SageMaker con unos pocos clics.

A medida que la tecnología avanza, estas mejoras posicionan a Amazon SageMaker como una de las principales herramientas para la implementación eficiente y optimizada de modelos de IA generativa, proporcionando a sus usuarios la capacidad de reducir costos y mejorar el rendimiento de manera significativa.

Scroll al inicio