Despliegue y Entrenamiento de Modelos de IA a Escala de Trillones de Parámetros con Amazon SageMaker y Soporte para P6e-GB200 UltraServers

Elena Digital López

Amazon ha dado un paso significativo en el campo de la inteligencia artificial al lanzar SageMaker HyperPod, un sistema que aprovecha el poder de las GPUs NVIDIA Blackwell en un solo sistema. Con la promesa de definir la próxima ola de innovación en IA, este sistema ofrece un rendimiento impresionante de 360 petaflops en cálculo FP8 y 1.4 exaflops en FP4.

El corazón de esta innovación son los P6e-GB200 UltraServers, que cuentan con la arquitectura NVIDIA GB200 NVL72. Estos servidores proporcionan un rendimiento líder, permitiendo el desarrollo e implementación de modelos de IA de hasta mil billones de parámetros a gran escala. Integrados con el entorno de SageMaker HyperPod, facilitan la escalabilidad y reducen el tiempo de inactividad, simplificando la transición del entrenamiento al despliegue masivo.

La tecnología detrás de estos UltraServers es impresionante. Con 36 CPUs NVIDIA Grace y 72 GPUs Blackwell en un único dominio NVLink, se garantiza un acceso inédito a recursos computacionales, mejorando significativamente el rendimiento en la formación de modelos de IA.

Además, la solución ofrece capacidades de red de alto rendimiento, proporcionando hasta 130 TBps de ancho de banda NVLink de baja latencia. Esto mejora la comunicación en cargas de trabajo de inteligencia artificial a gran escala. Los UltraServers también soportan hasta 405 TB de almacenamiento NVMe SSD local, optimizando el proceso de entrenamiento al permitir un acceso rápido a los datos.

La combinación de SageMaker HyperPod con los UltraServers representa un avance crucial hacia un entrenamiento y despliegue más eficientes de modelos de IA generativos avanzados. Es especialmente beneficioso para organizaciones que manejan múltiples proyectos, asegurando un uso óptimo de la infraestructura y reduciendo costos.

Las capacidades de estos UltraServers están disponibles a través de planes flexibles en la zona local de AWS en Dallas, facilitando el acceso a herramientas poderosas para el desarrollo de IA en diversos sectores. Las organizaciones interesadas pueden registrarse en la consola de SageMaker para comenzar a usar esta nueva tecnología y maximizar sus proyectos de inteligencia artificial.

Scroll al inicio