Entrenamiento de Llama 3.3 Swallow: Un LLM Soberano Japonés en Amazon SageMaker HyperPod

Elena Digital López

En un paso trascendental en el ámbito de la inteligencia artificial, el Instituto de Ciencia de Tokio ha logrado completar el desarrollo de Llama 3.3 Swallow, un sofisticado modelo de lenguaje de 70 mil millones de parámetros diseñado específicamente para el procesamiento avanzado del idioma japonés. Esta importante iniciativa, encabezada por el investigador Kazuki Fujii, se ha llevado a cabo usando Amazon SageMaker HyperPod, una infraestructura que optimiza el rendimiento en tareas lingüísticas, superando a referentes como GPT-4o-mini.

El modelo se construye sobre la arquitectura de Meta Llama 3.3, pero incorpora mejoras específicas dirigidas al idioma japonés. Este proyecto ha sido fruto de un esfuerzo colaborativo entre el Laboratorio Okazaki y el Laboratorio Yokota del Instituto de Ciencia de Tokio, junto con el Instituto Nacional de Ciencia y Tecnología Industrial Avanzada (AIST). Actualmente, Llama 3.3 Swallow está disponible en dos versiones en la plataforma Hugging Face, ofreciendo acceso a investigadores y desarrolladores que busquen aprovechar sus capacidades.

El proceso de entrenamiento del modelo se realizó mediante una preformación continua, utilizando el Swallow Corpus Version 2, un conjunto de datos recopilado de contenidos educativos en japonés disponibles en la web. Este corpus asegura un alto nivel de calidad en los datos de entrenamiento. En total, se emplearon 32 instancias EC2 de Amazon con potentes GPUs para llevar a cabo un entrenamiento que se extendió por más de 16 días.

Los resultados han demostrado que el modelo supera a varias alternativas competidoras, mostrando un rendimiento destacado en tareas del idioma japonés. En particular, la variante ajustada para instrucciones de Llama 3.3 Swallow ha mostrado un rendimiento excepcional en el Japanese MT-Bench, un estándar para evaluar aplicaciones lingüísticas en japonés.

El modelo está disponible en Hugging Face cumpliendo con las licencias de uso de Meta Llama 3.3 y Gemma, lo que promueve el desarrollo de innovaciones en inteligencia artificial centradas en el idioma japonés. El diseño de la infraestructura de entrenamiento es escalable y eficiente, combinando componentes de cómputo, red, almacenamiento y monitoreo para acelerar el procesamiento y reducir interrupciones.

Además, se ha implementado un enfoque metódico para la optimización de recursos, junto con un sistema de monitoreo en tiempo real que permite la detección temprana de problemas en el procesamiento. Estos desarrollos están planeados para ser liberados como proyectos de código abierto, proporcionando recursos valiosos para la comunidad investigadora en inteligencia artificial.

Con el éxito de Llama 3.3 Swallow, el equipo planea seguir expandiendo sus capacidades y explorando nuevas aplicaciones tecnológicas y comunicativas en el futuro cercano.

Scroll al inicio