La contaminación del aire en África se ha convertido en una de las crisis ambientales más urgentes, provocando diversas enfermedades en toda la región. A pesar de los esfuerzos de organizaciones como sensors.AFRICA, que han desplegado numerosos sensores de calidad del aire, la colecta de datos sigue enfrentando serios problemas debido a la inestabilidad del suministro eléctrico y a problemas de conectividad, especialmente en zonas de alto riesgo.
Estas deficiencias en la recolección de datos sobre material particulado fino (PM2.5) reducen su validez estadística, conduciendo a interpretaciones erróneas y comprometiendo la toma de decisiones basada en datos para controlar la contaminación y mitigar sus efectos en la salud pública.
Para enfrentar estos desafíos, se ha implementado la plataforma Amazon SageMaker Canvas, que utiliza aprendizaje automático para predecir niveles de PM2.5 basándose en datos incompletos. Esta herramienta es crucial, ya que la exposición a PM2.5 contribuye significativamente a la mortalidad prematura por enfermedades cardiovasculares y respiratorias a nivel mundial.
SageMaker Canvas destaca por su capacidad para manejar datos fragmentados de manera eficaz. A diferencia de los sistemas tradicionales, que requieren conjuntos de datos completos, esta plataforma puede generar predicciones confiables a pesar de las lagunas en la información recolectada por los sensores. Esto asegura que las redes de monitoreo de calidad del aire puedan operar continuamente y proporcionar a las agencias medioambientales y funcionarios de salud pública información crucial para alertas sobre contaminación y análisis a largo plazo.
La solución de imputación de datos, que emplea Amazon SageMaker AI junto con AWS Lambda y AWS Step Functions, está diseñada para proporcionar datos fiables a analistas medioambientales. La metodología se basa en un conjunto de datos de entrenamiento que incluye más de 15 millones de registros de períodos pasados en diversas áreas de Kenia y Nigeria, recolectados por dispositivos de sensores en múltiples ubicaciones.
Este enfoque no solo busca analizar los datos actuales, sino también remediar las brechas de información causadas por limitaciones de los sensores y problemas de conectividad. Esto es crucial para mejorar la respuesta ante la calidad del aire y para permitir decisiones oportunas en el ámbito de la salud pública.