Uso De Llama 3.1 405B Para Generación Y Destilación De Datos Sintéticos En El Afinamiento De Modelos Más Pequeños

Elena Digital López

Hoy se ha anunciado con entusiasmo la disponibilidad del nuevo modelo Llama 3.1 405B en Amazon SageMaker JumpStart y en Amazon Bedrock, en su versión preliminar. Los modelos Llama 3.1 representan una colección de inteligencia artificial generativa de última generación, preentrenadas y afinadas para instrucciones en tamaños de 8B, 70B y 405B. Amazon SageMaker JumpStart es un centro de aprendizaje automático que proporciona acceso a algoritmos, modelos y soluciones de ML, facilitando el inicio rápido en el aprendizaje automático. Por otro lado, Amazon Bedrock ofrece una manera sencilla de construir y escalar aplicaciones de inteligencia artificial generativa utilizando modelos Meta Llama, a través de una única API.

En este artículo, mostramos cómo utilizar el modelo Llama 3.1 405B para generar datos (etiquetas para un conjunto de datos de muestra) y cómo emplear estos datos generados para afinar un modelo más pequeño, como el Llama 3 8B, mejorando sus respuestas en comparación con el modelo no afinado. También proporcionamos el cuaderno de código que puedes utilizar para ejecutar y probar esta solución.

Llama 3.1 es una colección de modelos de lenguaje grande, multilingües y optimizados para inferencia, con soporte para longitudes de contexto largas (128,000) y atención de consulta agrupada (GQA). Los modelos afinados para instrucciones textuales están diseñados para casos de uso en diálogos multilingües, superando a muchos de los modelos de chat disponibles públicamente en varios benchmarks de la industria.

El modelo Llama 3.1 405B es el primero disponible públicamente que rivaliza con los modelos más avanzados en términos de conocimiento general, direccionabilidad, matemáticas, uso de herramientas y traducción multilingüe. Además de la inferencia directa, este modelo puede generar datos sintéticos para mejorar modelos más pequeños y servir como base para afinaciones específicas de dominio.

Los modelos Llama 3.1 están disponibles hoy para inferencia en SageMaker JumpStart y Amazon Bedrock. En SageMaker JumpStart, se están implementando en todas las regiones de AWS donde está disponible y soportan los tipos de instancia requeridos, necesitando instancias P5 para Llama 3.1 405B. En Amazon Bedrock, los modelos están disponibles en la región us-west-2, con planes para una futura disponibilidad regional expandida.

Para empezar a usar el modelo Llama 3 8B Instruct, realizamos la inferencia directamente a través de Amazon Bedrock o un endpoint desplegado usando SageMaker JumpStart. Los modelos Llama 3 Instruct, optimizados para diálogos, utilizan el historial previo entre el asistente de chat y el usuario como entrada, permitiendo formular preguntas contextualizadas.

Por ejemplo, en una conversación sobre sitios turísticos en París, el asistente genera varias opciones de recomendación y responde a una consulta específica sobre la Torre Eiffel, destacando su ingeniería, vistas panorámicas, ambiente romántico, e importancia histórica. También probamos la capacidad del modelo para responder preguntas lógicas y aritméticas basadas en el conjunto de datos AQUA-RAT.

En casos donde las respuestas del modelo no fueron precisas, utilizamos el modelo Llama 3.1 405B para generar datos de etiqueta, que luego se usaron para afinar el modelo Llama 3 8B. Este proceso de afinación incluyó la conversión de datos del conjunto AQUA-RAT, generando respuestas completas utilizando el modelo 405B y creando un dataset de entrenamiento para mejorar el modelo más pequeño.

Una vez afinado, el modelo Llama 3 8B mostró mejoras significativas en la resolución de problemas lógicos y matemáticos. Este enfoque demuestra cómo el modelo Llama 3.1 405B puede ser utilizado eficientemente para generar datasets y mejorar las capacidades específicas de modelos más pequeños a través de la destilación.

En conclusión, hemos mostrado cómo utilizar el modelo Llama 3.1 405B para sintetizar y generar etiquetas de datos, mejorando el rendimiento de modelos más pequeños a través de la destilación. Proporcionamos también el cuaderno de código necesario para ejecutar y probar la solución. Animamos a aplicar esta idea junto con el modelo Llama 3.1 405B en tus propios casos de uso para generar etiquetas o datos no etiquetados, ayudando así a resolver tus necesidades específicas.
vía: AWS machine learning blog

Scroll al inicio