El entrenamiento de grandes modelos de lenguaje (LLMs, por sus siglas en inglés) se ha convertido en un importante gasto para las empresas que buscan adaptarlos a sus datos específicos del dominio. Sin embargo, muchas organizaciones encuentran que realizar un ajuste fino completo de estos modelos no resulta rentable. Para reducir costos y seguir aprovechando la inteligencia artificial, están empezando a adoptar técnicas de Ajuste Fino Eficiente en Parámetros (PEFT). Estas técnicas permiten adaptar modelos LLM preentrenados a tareas particulares minimizando el número de parámetros que necesitan ser actualizados. Estrategias como la Adaptación de Bajo Rango (LoRA) y la Adaptación de Bajo Rango Descompuesta Ponderada (DoRA) reducen significativamente los parámetros entrenables, lo que se traduce en menores costos de ajuste.
Además de los costes, el ajuste fino de LLM a gran escala representa desafíos técnicos significativos. Configurar un entorno de entrenamiento distribuido puede ser complejo, demandando experiencia en gestión de servidores, configuración de clústeres, redes y computación distribuida. Para simplificar esta configuración y acelerar el entrenamiento distribuido, Amazon Web Services (AWS) presentó su innovador servicio Amazon SageMaker HyperPod a finales de 2023.
SageMaker HyperPod está diseñado para agilizar el entrenamiento de modelos generativos a gran escala, proporcionando una infraestructura específica para entrenamiento distribuido. Este servicio supervisa la salud del clúster, reemplazando automáticamente nodos defectuosos y reanudando el entrenamiento del modelo desde puntos de control preestablecidos. Los clústeres preconfigurados contienen bibliotecas de entrenamiento distribuido que facilitan la división de datos y modelos entre miles de nodos de computación, permitiendo un procesamiento paralelo eficiente y un uso óptimo de la infraestructura.
AWS ha integrado sus chips Trainium, diseñados para entrenar modelos con más de 100 mil millones de parámetros, junto con el kit de herramientas Neuron SDK. Esto ofrece herramientas de compilación y evaluación para una aceleración del aprendizaje profundo altamentente eficaz y rentable. La integración de los chips Trainium con los modelos existentes se realiza a través del paquete Optimum-Neuron de Hugging Face, que actúa como interfaz con Neuron y permite la implementación de técnicas como LoRA para el ajuste fino.
El ajuste fino tradicional, que modifica todos los parámetros de un modelo, suele ser costoso en términos computacionales y exige mucha memoria. Los enfoques PEFT, como LoRA, se enfocan en introducir un conjunto reducido de parámetros entrenables, lo que ajusta el comportamiento del modelo manteniendo la mayoría de los parámetros congelados. Esto preserva el rendimiento del modelo base mientras reduce significativamente la carga computacional y los requisitos de recursos.
Para realizar un ajuste fino eficiente de un modelo Meta Llama 3 utilizando PEFT en Trainium con SageMaker HyperPod, es necesario seguir pasos específicos. Estos incluyen la configuración y despliegue de un clúster HyperPod para entrenamiento distribuido, el ajuste fino del modelo sobre un conjunto de datos, y la consolidación e inferencia de los pesos del modelo tras el ajuste. Usando LoRA para el ajuste fino de modelos Meta Llama 3, las empresas pueden lograr una reducción de hasta el 50% en los costos y un 70% en el tiempo de entrenamiento, lo que representa un enfoque atractivo para contener gastos y aprovechar las tecnologías más avanzadas de aprendizaje profundo disponibles hoy en día.