Predicción del Tráfico en la Red Backbone de AWS para Mitigar Riesgos usando GraphStorm

Elena Digital López

Amazon Web Services (AWS) continúa avanzando en la gestión de su red global, conocida como la columna vertebral que sostiene la entrega eficiente y segura de servicios a nivel mundial. Con una cobertura en 34 regiones y más de 600 puntos de presencia de Amazon CloudFront, junto con 41 Zonas Locales y 29 Zonas de Longitud de Onda, esta red proporciona conectividad de alto rendimiento y baja latencia en 245 países y territorios.

La administración de esta vasta red es un proceso continuo que requiere planificación, mantenimiento y operaciones en tiempo real. Aunque la mayoría de los cambios se realizan sin problemas, la escala y la complejidad del sistema global a veces pueden generar efectos imprevistos que afectan el rendimiento y la disponibilidad. Estas complejidades subrayan la necesidad de desarrollar estrategias avanzadas para la evaluación de riesgos y su mitigación. Un gran desafío es predecir cómo los cambios en una parte de la red de AWS podrían alterar los patrones de tráfico y el rendimiento a lo largo de toda la infraestructura. Este problema plantea preguntas críticas, como la capacidad de la red para manejar el tráfico con los recursos disponibles, cuándo podría surgir congestión y cuál es el riesgo de pérdida de tráfico.

El equipo de AWS se esfuerza por mejorar sus mecanismos de seguridad y procesos de evaluación de riesgos, a través de una planificación minuciosa y simulaciones exhaustivas de cada cambio, sin importar su tamaño. Sin embargo, en la red de AWS de gran escala, las simulaciones presentan desafíos en operaciones en tiempo real debido a los altos costos de computación y el tiempo requerido.

Para enfrentar estos desafíos, AWS ha comenzado a invertir en estrategias basadas en datos que escalan eficazmente con el tamaño de su red. Un desarrollo prometedor ha sido el uso de GraphStorm, un marco de aprendizaje automático de gráficos, para abordar problemas complejos de predicción de tráfico. Estas técnicas de aprendizaje automático de gráficos muestran un rendimiento superior en tareas relacionadas con el tráfico debido a su capacidad para entender la información estructural oculta en la topología de la red.

En una prueba piloto con 85 segmentos de la red backbone durante dos semanas, el modelo de estas redes neuronales de gráficos alcanzó una precisión sobresaliente al predecir el tráfico con un margen de error del 13% en el percentil 90. Este método no solo mejora la seguridad operativa, sino que también optimiza las operaciones diarias al prever patrones de tráfico y mitigar riesgos de congestión.

AWS ha desarrollado una arquitectura de sistemas que integra GraphStorm con varios servicios de AWS, permitiendo una formación de modelos escalable y eficiente. Este sistema está diseñado para la formación continua de modelos, rápida inferencia y integración sin problemas con los flujos de trabajo existentes, asegurando una mejor gestión de la red frente a las dinámicas cambiantes del tráfico global.

Con estos avances, AWS busca equilibrar la satisfacción de las demandas de sus clientes y la seguridad operativa de su infraestructura, comprometiéndose a seguir comunicando sus progresos en la implementación de estas soluciones innovadoras.

Scroll al inicio