Integración de Dependencias Personalizadas en los Flujos de Trabajo de Amazon SageMaker Canvas

Elena Digital López

Las organizaciones que emplean Amazon SageMaker Canvas para implementar flujos de trabajo de aprendizaje automático (ML) están encontrando formas innovadoras de integrar dependencias externas en sus proyectos. Esta plataforma de ML de bajo código, diseñada para facilitar la experimentación sin necesidad de programación exhaustiva, permite a los usuarios realizar cada paso del proceso, desde la preparación de datos hasta el despliegue del modelo final.

Sin embargo, algunos proyectos requieren el uso de bibliotecas especializadas que no se incluyen de forma predeterminada en SageMaker Canvas. Aquí, explicamos un caso práctico que ilustra la integración de código personalizado y sus dependencias externas en los flujos de trabajo de esta herramienta.

Amazon SageMaker Canvas ofrece más de 300 pasos de transformación incorporados y soporte para programación en Python, PySpark y SparkSQL, lo que ayuda a los usuarios a manipular y transformar datos sin esfuerzo. Pero, cuando se presentan necesidades más complejas, como la utilización de módulos externos no soportados, se requiere una solución más avanzada.

Un método probado consiste en integrar scripts personalizados con dependencias desde Amazon Simple Storage Service (Amazon S3). El proceso esencial se divide en tres etapas: primero, cargar los scripts y sus dependencias a Amazon S3; luego, usar SageMaker Data Wrangler para procesar los datos con este código; y finalmente, entrenar y exportar el modelo resultante.

Consideremos un ejemplo donde se manipulan conjuntos de datos sobre envíos de pantallas de computadora. Al fusionar diferentes fuentes de información, se forma un conjunto de datos completo que es fundamental para construir modelos predictivos capaces de evaluar la puntualidad de futuros envíos en función de patrones históricos.

Para comenzar, los usuarios deben tener acceso a Amazon S3 y Amazon SageMaker AI. En la consola de SageMaker AI, es necesario crear un flujo de datos seleccionando conjuntos de datos específicos. Una vez procesados los datos con cálculos personalizados que requieren librerías externas como mpmath, estos se empaquetan en un archivo .zip y se suben a un bucket de Amazon S3.

Cuando el archivo está en S3, los usuarios pueden integrarlo en SageMaker Canvas para ejecutar los scripts deseados. Esto permite ampliar las funcionalidades de la plataforma al incluir herramientas personalizadas. Así se maximiza el potencial de SageMaker Canvas, permitiendo alcanzar una precisión del 94.5% en modelos predictivos construidos con estas técnicas.

Finalmente, los modelos entrenados pueden ser implementados directamente, añadidos al registro de modelos de SageMaker o exportados a un notebook de Jupyter. Para gestionar eficientemente los recursos de SageMaker y reducir costos, se aconseja cerrar sesión tras concluir el trabajo o configurar el entorno para apagarse automáticamente si no está en uso.

Este enfoque ofrece a científicos de datos y analistas la oportunidad de extender las capacidades de SageMaker Canvas más allá de sus funciones incorporadas, integrando componentes personalizados cruciales para el éxito de sus proyectos de aprendizaje automático.

Scroll al inicio