AWS ha lanzado una innovadora integración entre Amazon SageMaker Unified Studio y los buckets de propósito general de Amazon S3, que promete revolucionar la gestión y análisis de volúmenes masivos de información no estructurada. Esta nueva funcionalidad permite a los equipos de ciencia de datos utilizar datos almacenados en S3 para ajustar modelos de aprendizaje automático, ofreciendo así oportunidades significativas para mejorar la toma de decisiones basadas en datos.
En un ejemplo reciente, se llevó a cabo la integración de estos buckets con el catálogo de Amazon SageMaker para ajustar el modelo Llama 3.2 11B Vision Instruct. Este modelo se especializa en responder preguntas visuales, como extraer la fecha de una transacción en un recibo. Inicialmente, el modelo base Llama 3.2 alcanzó un índice promedio de Similaridad de Levenshtein Normalizada (ANLS) del 85,3% en el conjunto de datos DocVQA, compuesto por miles de ejemplos de preguntas visuales.
Para mejorar esta precisión, se implementó un protocolo de ajuste fino, probando diferentes tamaños de conjuntos de datos (1,000, 5,000, y 10,000 imágenes). Este proceso abarcó desde la ingesta de datos y creación del modelo hasta la evaluación exhaustiva de métricas, y fue totalmente gestionado a través de Amazon SageMaker Unified Studio. Los equipos deben cumplir ciertos requisitos, como la creación de un dominio en SageMaker y establecer las conexiones necesarias con los buckets de S3.
Un aspecto crucial del éxito de esta integración es una arquitectura bien diseñada, que permite una colaboración fluida entre los equipos de datos mediante roles de acceso simplificados. Esto facilita la gestión de permisos sin complicaciones añadidas. Además, mediante la utilización de MLflow, se lleva a cabo un seguimiento detallado de los experimentos, observando mejoras continuas en la precisión del modelo ajustado.
El resultado de este enfoque fue la obtención de un modelo ajustado que alcanzó un ANLS de 90,2%, lo cual representa una mejora del 4,9% respecto al modelo base. Este avance no solo valida la efectividad de la metodología, sino que también destaca el potencial de Amazon SageMaker Unified Studio para optimizar modelos de aprendizaje automático, llevando a una implementación más eficaz de modelos desde datos no estructurados hasta producción.








