El entrenamiento de modelos de última generación sigue siendo un desafío significativo para la computación moderna, especialmente cuando se trata de modelos como el Llama 3, que cuenta con 70 mil millones de parámetros. Este proceso, altamente demandante en recursos, requiere un sistema distribuido de cientos o miles de instancias aceleradas funcionando durante largos periodos.
Un ejemplo claro de estas demandas es el preentrenamiento del modelo Llama 3, el cual se realizó utilizando 15 billones de tokens de entrenamiento y requirió 6.5 millones de horas de GPU H100. En un sistema que emplea 256 instancias de Amazon EC2 P5, cada una con 8 GPUs NVIDIA H100, el tiempo estimado para completar este trabajo sería de aproximadamente 132 días.
Cuando se trabaja con entrenamiento distribuido, cada paso requiere que todas las instancias concluyan sus cálculos antes de avanzar, lo cual añade una capa de complejidad y vulnerabilidad, ya que cualquier falla en una sola instancia tiene el potencial de detener el progreso. La probabilidad de fallos aumenta con el tamaño del clúster debido a la gran cantidad de componentes de hardware. No solo se pierden valiosas horas de GPU, sino que también se requiere un esfuerzo adicional de ingeniería para solucionar estos problemas.
La fiabilidad del sistema es evaluada por equipos de ingeniería mediante métricas como el tiempo medio entre fallos (MTBF). En entrenamientos recientes, como el del Llama 3.1 en 16,000 GPUs, se registraron 417 fallos en 54 días, mientras que en el entrenamiento de MPT-7B en 440 GPUs se experimentaron cuatro fallos. Estos datos sugieren que, en grandes entrenamientos distribuidos, es esperable que un pequeño porcentaje de instancias falle.
El tamaño del clúster tiene un impacto directo en la fiabilidad, con una tasa de fallo de 0.04% por hora para un sistema de 512 instancias, lo cual implica que se podría experimentar un fallo cada 5 horas. Este aumento en las tasas de fallo presenta un desafío significativo para la ingeniería.
La resolución de fallos es un proceso que incluye el análisis de la causa raíz, reparación o reemplazo de hardware, y recuperación del sistema. La rapidez es crucial para minimizar el impacto en el tiempo total de entrenamiento. La plataforma Amazon SageMaker HyperPod ofrece una solución efectiva para estos entornos complejos, automatizando la detección y sustitución de instancias defectuosas, lo que permite retomar el entrenamiento desde el último punto guardado y mejora la eficacia operativa.
Empíricamente, SageMaker HyperPod podría disminuir el tiempo total de entrenamiento en un 32% en un clúster de 256 instancias, con una tasa de fallo del 0.05%, resultando en un ahorro significativo en costos de entrenamiento para tareas complejas.
La vasta complejidad y recursos necesarios para entrenar modelos avanzados hacen esencial que las empresas busquen soluciones eficientes para centrarse en la innovación. SageMaker HyperPod proporciona a los equipos la seguridad necesaria para llevar a cabo entrenamientos prolongados, con la certeza de que cualquier fallo de hardware será manejado automáticamente, minimizando interrupciones en trabajos de aprendizaje automático.