Optimización del Modelo Mistral por Fastweb Usando Amazon SageMaker HyperPod para Desarrollar un Modelo de Lenguaje Italiano

Elena Digital López

La transformación digital impulsada por la inteligencia artificial continúa siendo un motor de cambio en diversas industrias, y el sector de las telecomunicaciones está en el epicentro de esta revolución. Fastweb, una destacada empresa de telecomunicaciones italiana, ha estado a la vanguardia de esta transición desde 2019, año en el que comenzó a invertir de manera significativa en tecnología de inteligencia artificial. La compañía ha tomado como misión el desarrollo de un modelo de lenguaje extenso (LLM) entrenado con datos en idioma italiano, con el objetivo de ofrecer esta avanzada capacidad de IA a diversas entidades.

El entrenamiento de un modelo de lenguaje extenso requiere una infraestructura computacional considerable y es un proceso de extrema complejidad. Por esta razón, Fastweb eligió los servicios de inteligencia artificial generativa y aprendizaje automático de Amazon Web Services (AWS), beneficiándose específicamente de Amazon SageMaker HyperPod. Esta tecnología permite configurar y mantener clústeres de computación a gran escala, utilizando miles de aceleradores de hardware, como AWS Trainium y las unidades de procesamiento gráfico (GPU) de NVIDIA, al mismo tiempo que brinda la flexibilidad necesaria para desplegar clústeres más ágiles, optimizando así la utilización de recursos y el control de costos.

Fastweb se enfrentó a un desafío significativo debido a la escasez de conjuntos de datos de alta calidad en italiano, un obstáculo que lograron superar al desarrollar un vasto conjunto de datos a partir de fuentes públicas y mediante la adquisición de datos licenciados de editoriales y medios. En un primer experimento, Fastweb ajustó finamente el modelo Mistral 7B, un modelo de referencia en el mercado, permitiéndole gestionar tareas como la creación de resúmenes, respuestas a preguntas y escritura creativa, mientras se aseguraba de que las respuestas reflejaran un entendimiento claro de la cultura italiana.

La optimización del modelo se llevó a cabo aprovechando las capacidades de AWS, donde la eficiencia en la preparación de datos y la entrega de resultados tempranos ofrecieron información valiosa para el desarrollo de modelos en italiano. A través de una combinación de traducciones de datasets del inglés al italiano y la creación de datos sintéticos medianes modelos de IA, Fastweb logró enriquecer su conjunto de datos, garantizando calidad y diversidad.

El costo computacional del ajuste del modelo Mistral 7B fue considerable, requiriendo más de 156 GB de memoria de hardware. Para gestionar esta carga, Fastweb implementó técnicas de entrenamiento distribuido para asegurar un uso eficiente de múltiples GPUs, logrando así un procesamiento paralelo que redujo significativamente el tiempo de entrenamiento necesario.

Como resultado del ajuste fino, el modelo de Fastweb evidenció una notable mejora, con un incremento del 20% en precisión para tareas relacionadas con el idioma italiano, y mostró un avance significativo en áreas como la respuesta a preguntas y el razonamiento básico. Con la mirada puesta en el futuro, Fastweb planea lanzar sus próximos modelos a través de Amazon Bedrock, con lo que pretende establecer nuevas soluciones de IA generativa de forma ágil y efectiva.

Al aprovechar las capacidades de Amazon Bedrock, Fastweb no solo busca mejorar su gama de servicios, sino también liderar la transformación digital en varias industrias, promoviendo la adopción de soluciones innovadoras basadas en inteligencia artificial. Esta propuesta subraya su compromiso con la tecnología y la eficiencia de procesos en un entorno global cada vez más orientado a lo digital.

Scroll al inicio