Lecciones de la Creación de Modelos Fundamentales en AWS con el Programa GENIAC de Japón

Elena Digital López

En 2024, el Ministerio de Economía, Comercio e Industria de Japón inauguró el Generative AI Accelerator Challenge (GENIAC), un ambicioso programa destinado a impulsar el desarrollo de la inteligencia artificial generativa. Este esfuerzo busca proporcionar a las empresas participantes financiamiento, experiencias de asesoramiento y amplios recursos computacionales, esenciales para el avance en la creación de modelos fundamentales.

Amazon Web Services (AWS) fue elegido como el proveedor de servicios en la nube durante la segunda fase del GENIAC, ofreciendo tanto infraestructura como asesoramiento técnico a las 12 organizaciones seleccionadas. Aunque inicialmente el desafío parecía sencillo, al centrarse en la provisión de acceso a cientos de GPUs y chips Trainium, las complejidades surgieron debido a la necesidad de un sistema confiable que fuera capaz de gestionar el entrenamiento distribuido de manera eficiente.

Durante esta fase, se lograron hitos significativos. En tan solo un día, las organizaciones implementaron 127 instancias de Amazon EC2 P5 y 24 instancias de Amazon EC2 Trn1. En los seis meses siguientes, se entrenaron modelos a gran escala, destacándose proyectos como Stockmark-2-100B-Instruct-beta y Llama 3.1 Shisa V2 405B.

Lo aprendido fue claro: la colaboración multidisciplinaria es esencial para el éxito en proyectos de aprendizaje automático a gran escala. AWS formó un equipo virtual que integraba cuentas, arquitectos de soluciones y equipos de servicio, lo que permitió un intercambio de información y asistencia fluidos entre AWS y sus clientes.

La comunicación estructurada también jugó un papel crucial. Se implementó un canal en Slack para coordinar el programa eficientemente, facilitando la resolución rápida de problemas y el intercambio de ideas. Además, AWS mantuvo documentos detallados para seguir el progreso de cada cliente, asegurando la claridad en aspectos técnicos y configuraciones necesarias. Las reuniones semanales sirvieron para compartir aprendizajes y mejorar constantemente el programa.

La introducción de arquitecturas de referencia preconfiguradas fue igualmente vital. AWS creó plantillas y automatizaciones para AWS ParallelCluster y SageMaker HyperPod, permitiendo a los equipos desplegar sus entornos de trabajo con mínima fricción.

El éxito del programa GENIAC ha remarcado que, si bien el entrenamiento de modelos fundamentales es un desafío técnico, su esencia recae en la organización y estructura del proceso. Con una estrategia colaborativa y soporte adecuado, los participantes han podido enfrentar y superar grandes cargas de trabajo en la nube. Al culminar la segunda fase, se organizó un evento técnico en Tokio, preparando a los desarrolladores para el futuro de GENIAC y marcando un hito en el avance de la inteligencia artificial generativa a nivel global. AWS reafirma su compromiso con el desarrollo continuo de estas tecnologías.

Scroll al inicio