Construyendo un Superordenador de IA con Cinco Mac Studios: ¿Es Posible?

En el mundo del hardware de alto rendimiento, los superordenadores de IA suelen ser sinónimo de centros de datos con servidores extremadamente costosos, equipados con GPUs NVIDIA de última generación. Sin embargo, un experimento reciente ha demostrado que no siempre es necesario recurrir a esas soluciones industriales.

Un creador de contenido tecnológico ha decidido probar si cinco Mac Studios pueden agruparse en un clúster de IA para ejecutar Llama 3.1 405B, uno de los modelos de inteligencia artificial más grandes disponibles. ¿Puede un equipo de sobremesa competir con la infraestructura de supercomputación?

El reto: Ejecutar Llama 3.1 405B con hardware de consumo

El modelo Llama 3.1 405B cuenta con 405 mil millones de parámetros, lo que lo convierte en un gigante dentro del aprendizaje automático. Para ejecutarlo, normalmente se requieren GPUs de servidores especializados como las NVIDIA H100 o A100, con al menos 1 TB de memoria de video (VRAM).

El objetivo del experimento era simple: ¿Podrían cinco Mac Studios, cada uno con un chip M2 Ultra y 64 GB de memoria unificada, reemplazar la infraestructura tradicional de IA? La clave del enfoque estaba en la arquitectura de memoria unificada de Apple, que permite que la memoria total del sistema (RAM) se utilice también como memoria de la GPU.

La configuración del clúster de Mac Studios

Para conectar los cinco Mac Studios y hacerlos trabajar como un solo sistema, se utilizó EXO Labs, un software en fase beta que permite distribuir la carga de trabajo de IA entre múltiples equipos.

La red de interconexión fue un aspecto clave:

  1. Conexión inicial vía Ethernet de 10 Gbps: Esta velocidad es considerable para la mayoría de las aplicaciones, pero insuficiente para cargas de IA de alto nivel, donde lo habitual son redes de 400 Gbps o incluso 800 Gbps en entornos empresariales.
  2. Prueba con Thunderbolt 4 (40 Gbps): Se intentó aumentar el ancho de banda entre los equipos con Thunderbolt, logrando mejoras significativas en la velocidad de transferencia de datos.

Primeras pruebas: rendimiento con modelos más pequeños

Antes de probar Llama 3.1 405B, el creador decidió evaluar modelos más manejables:

  • Llama 3.21B (1.000 millones de parámetros): Se ejecutó sin problemas en un solo Mac Studio.
  • Llama 3.3 70B (70.000 millones de parámetros): Requirió el uso del clúster, pero funcionó a velocidades aceptables.
  • Llama 3.1 405B (405.000 millones de parámetros): Aquí es donde las cosas se complicaron.

Desafíos con el modelo de 405B parámetros

El principal problema fue el uso intensivo de memoria. Aunque los cinco Mac Studios tenían un total combinado de 320 GB de RAM unificada, esto seguía siendo insuficiente para cargar completamente el modelo sin recurrir a memoria de intercambio (swap), lo que afectaba gravemente el rendimiento.

El consumo energético también destacó como un punto fuerte de los Mac Studios frente a las soluciones tradicionales:

  • Cada Mac Studio consume apenas 100-150W bajo carga.
  • Un solo servidor con GPU NVIDIA 4090 puede superar los 450W de consumo por GPU.

Sin embargo, el mayor cuello de botella fue la comunicación entre los nodos. Las redes Ethernet de 10 Gbps no fueron suficientes, y aunque Thunderbolt 4 mejoró la situación, la falta de optimización para IA en el ecosistema de Apple dificultó la tarea.

Comparativa con hardware tradicional de IA

RecursoMac Studio M2 Ultra (x5)Servidor AI con GPUs H100
Memoria total (RAM/VRAM)320 GB (unificada)1 TB+ (H100)
Ancho de banda interno40 Gbps (Thunderbolt)400-800 Gbps (Infiniband)
Consumo energético~750W (total 5 Mac Studios)3.000-5.000W (centro de datos)
Costo estimado13.000$ (total)200.000$+

Si bien el sistema basado en Mac Studios es mucho más barato y energéticamente eficiente, la falta de optimización para IA y el limitado ancho de banda lo hacen poco viable frente a las soluciones empresariales.

Conclusión: ¿Puede un clúster de Mac Studios reemplazar un superordenador de IA?

El experimento demuestra que los Mac Studios pueden ejecutar modelos de IA siempre que sean lo suficientemente pequeños o estén bien optimizados. Sin embargo, para modelos de gran escala como Llama 3.1 405B, la falta de hardware optimizado para IA sigue siendo una gran limitación.

El ecosistema de Apple no está diseñado para estos usos intensivos de IA, y aunque la memoria unificada del M2 Ultra es una ventaja en ciertas tareas, no puede reemplazar la VRAM de las GPU especializadas de NVIDIA o AMD.

En definitiva, este experimento confirma que la IA de gran escala sigue requiriendo hardware especializado, pero también deja la puerta abierta a posibles avances en computación distribuida en dispositivos más accesibles.

Scroll al inicio