Reduce los Costes de Entrenamiento de ML con Amazon SageMaker HyperPod

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

El entrenamiento de modelos de última generación sigue siendo un desafío significativo para la computación moderna, especialmente cuando se trata de modelos como el Llama 3, que cuenta con 70 mil millones de parámetros. Este proceso, altamente demandante en recursos, requiere un sistema distribuido de cientos o miles de instancias aceleradas funcionando durante largos periodos.

Un ejemplo claro de estas demandas es el preentrenamiento del modelo Llama 3, el cual se realizó utilizando 15 billones de tokens de entrenamiento y requirió 6.5 millones de horas de GPU H100. En un sistema que emplea 256 instancias de Amazon EC2 P5, cada una con 8 GPUs NVIDIA H100, el tiempo estimado para completar este trabajo sería de aproximadamente 132 días.

Cuando se trabaja con entrenamiento distribuido, cada paso requiere que todas las instancias concluyan sus cálculos antes de avanzar, lo cual añade una capa de complejidad y vulnerabilidad, ya que cualquier falla en una sola instancia tiene el potencial de detener el progreso. La probabilidad de fallos aumenta con el tamaño del clúster debido a la gran cantidad de componentes de hardware. No solo se pierden valiosas horas de GPU, sino que también se requiere un esfuerzo adicional de ingeniería para solucionar estos problemas.

La fiabilidad del sistema es evaluada por equipos de ingeniería mediante métricas como el tiempo medio entre fallos (MTBF). En entrenamientos recientes, como el del Llama 3.1 en 16,000 GPUs, se registraron 417 fallos en 54 días, mientras que en el entrenamiento de MPT-7B en 440 GPUs se experimentaron cuatro fallos. Estos datos sugieren que, en grandes entrenamientos distribuidos, es esperable que un pequeño porcentaje de instancias falle.

El tamaño del clúster tiene un impacto directo en la fiabilidad, con una tasa de fallo de 0.04% por hora para un sistema de 512 instancias, lo cual implica que se podría experimentar un fallo cada 5 horas. Este aumento en las tasas de fallo presenta un desafío significativo para la ingeniería.

La resolución de fallos es un proceso que incluye el análisis de la causa raíz, reparación o reemplazo de hardware, y recuperación del sistema. La rapidez es crucial para minimizar el impacto en el tiempo total de entrenamiento. La plataforma Amazon SageMaker HyperPod ofrece una solución efectiva para estos entornos complejos, automatizando la detección y sustitución de instancias defectuosas, lo que permite retomar el entrenamiento desde el último punto guardado y mejora la eficacia operativa.

Empíricamente, SageMaker HyperPod podría disminuir el tiempo total de entrenamiento en un 32% en un clúster de 256 instancias, con una tasa de fallo del 0.05%, resultando en un ahorro significativo en costos de entrenamiento para tareas complejas.

La vasta complejidad y recursos necesarios para entrenar modelos avanzados hacen esencial que las empresas busquen soluciones eficientes para centrarse en la innovación. SageMaker HyperPod proporciona a los equipos la seguridad necesaria para llevar a cabo entrenamientos prolongados, con la certeza de que cualquier fallo de hardware será manejado automáticamente, minimizando interrupciones en trabajos de aprendizaje automático.

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Alan Sonny

Escribo sobre inteligencia artificial, robótica y tecnología y sigo la actualidad y notas del sector.

Reduce los Costes de Entrenamiento de ML con Amazon SageMaker HyperPod

Alan Sonny

Últimos artículos

Tesla presenta a Optimus: el robot humanoide capaz de navegar terrenos difíciles

China apunta a superar a Tesla con su avance en robots humanoides

Tesla revoluciona la visión de los robots autónomos con un nuevo sistema basado en IA

Accionistas de Tesla demandan a Elon Musk por desviar recursos a su startup xAI

Elon Musk redefine a Tesla: Más que autos, una empresa de IA y robótica

Artículos relacionados

DeepSeek-Prover-V2: Inteligencia artificial para resolver teoremas con Lean 4

CANYA, la inteligencia artificial española que traduce el lenguaje oculto de las proteínas “pegajosas”

OpenAI aclara cómo elegir el modelo ChatGPT ideal según la tarea: guía práctica para empresas y usuarios

Evaluación de Aplicaciones de IA Generativa con Métricas Personalizadas en Amazon Bedrock

Ganando la Lucha Contra el Comerciante de Spyware NSO

Tu Equipo de Servicio Tiene un Nuevo Compañero: Un Supergenio de 15 Mil Millones de Parámetros de ServiceNow y NVIDIA

Apple desarrolla una nueva versión de Xcode con la IA de Claude, el modelo de Anthropic

Phi-4: los modelos pequeños de Microsoft que desafían a los gigantes de la Inteligencia Artificial

DECORACIÓN

TECNOLOGÍA

LIFESTYLE

MIX

MEDIOS LOCALES

Reduce los Costes de Entrenamiento de ML con Amazon SageMaker HyperPod

Alan Sonny

Últimos artículos

Artículos relacionados

DECORACIÓN

TECNOLOGÍA

LIFESTYLE

MIX

MEDIOS LOCALES

Comienza a escribir y presiona Intro para buscar