Importación De Datos Desde Google Cloud Platform BigQuery Para Aprendizaje Automático Sin Código Con Amazon SageMaker Canvas

Elena Digital López

En un mundo empresarial cada vez más centrado en la nube, las organizaciones enfrentan el desafío de gestionar datos distribuidos a través de múltiples plataformas y sistemas locales. Esta dispersión complica sus esfuerzos para consolidar y analizar datos esenciales para sus iniciativas de aprendizaje automático. Sin embargo, una nueva estrategia arquitectónica ha emergido para facilitar este proceso, permitiendo la extracción de datos desde diversas nubes, como Google Cloud Platform (GCP) BigQuery, sin la necesidad de transferirlos, lo que reduce costos y complejidades asociadas.

Esta innovación se basa en el uso de Amazon Athena Federated Query para acceder a datos almacenados en GCP BigQuery. Combinado con Amazon SageMaker Data Wrangler, la solución permite la preparación de datos que posteriormente son utilizados para desarrollar modelos de aprendizaje automático en Amazon SageMaker Canvas, una interfaz diseñada para ML sin código. Esta herramienta permite a los analistas de negocio trabajar con datos de más de 50 fuentes, realizar transformaciones complejas sin programación, y crear modelos precisos para generar predicciones, todo ello sin la necesidad de tener conocimientos avanzados en el ámbito de ML.

La implementación técnica de este sistema se desarrolla en dos fases principales. Primero, se configura Amazon Athena para ejecutar consultas federadas sobre GCP BigQuery, permitiendo realizar consultas directas sobre BigQuery desde Athena. Luego, los datos se importan a SageMaker Canvas utilizando Athena como intermediario.

Una vez dentro de SageMaker Canvas, los datos se utilizan para construir modelos de aprendizaje automático y generar predicciones. Esta interfaz sin código facilita la preparación inicial de datos y la producción de pronósticos precisos, eliminando la necesidad de codificación. Además, si las necesidades de aprendizaje automático evolucionan, existe la posibilidad de migrar a un enfoque más personalizado con código mediante la integración de SageMaker Canvas y Amazon SageMaker Studio, lo que permite llevar las implementaciones a escala de producción.

Este enfoque arquitectónico proporciona un acceso eficiente y sin contratiempos a datos ubicados en GCP BigQuery, integrándolos dentro de SageMaker Canvas para el desarrollo y despliegue de modelos de aprendizaje automático. El proceso abarca desde la creación de consultas SQL en SageMaker Canvas para BigQuery, utilizando Athena como puente, hasta el uso de Amazon Secrets Manager para la gestión segura de credenciales. Todo ello asegura una integración segura y escalable que puede gestionar grandes volúmenes de datos a través de funciones Lambda sin servidor.

Los beneficios de esta solución son prominentes, destacando la eliminación del traslado innecesario de datos, acceso seguro mediante Amazon Secrets Manager, y la escalabilidad facilitada por funciones Lambda y la capacidad de Athena de manejar grandes conjuntos de datos eficazmente. Además, democratiza el acceso al aprendizaje automático, permitiendo a las organizaciones aprovechar el análisis avanzado para fomentar la innovación, sin requerir habilidades técnicas especializadas.

Scroll al inicio