Apple Silicon apunta alto: un M5 Max mueve un modelo de 122B en local

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

La conversación sobre Inteligencia Artificial en local acaba de sumar un nuevo argumento a favor de Apple Silicon. Un desarrollador ha publicado en Reddit y en GitHub una demostración en la que un Mac con chip M5 Max y 128 GB de memoria unificada ejecuta un modelo Qwen 3.5 de 122.000 millones de parámetros completamente en el dispositivo, sin nube y usando MLX, el framework de Apple optimizado para Apple Silicon. La cifra que más ha llamado la atención es la velocidad: hasta 65 tokens por segundo en generación sostenida, un rendimiento que, según su autor, permite incluso usar Claude Code sobre un backend local sin depender de APIs de Anthropic.

La afirmación, como ocurre con muchos benchmarks publicados primero en comunidades como Reddit, conviene leerla con matices. No se trata de un dato oficial de Apple ni de una prueba independiente validada por un laboratorio externo. Pero sí encaja con varias piezas públicas que ya apuntaban en esa dirección: Apple lleva tiempo posicionando MLX como un framework pensado para sacar partido de la memoria unificada de Apple Silicon, y la comunidad de inferencia local lleva semanas publicando pruebas en las que los nuevos M5 Max mejoran de forma clara a generaciones anteriores en cargas de modelos grandes.

Lo que promete el proyecto: IA local de verdad para desarrollo

El repositorio que ha desatado el interés se llama claude-code-local y su planteamiento es muy concreto: montar un servidor muy ligero, de unas 200 líneas de Python según su autor, que habla directamente la Anthropic Messages API para que Claude Code crea que está conectado a un backend compatible, cuando en realidad está usando un modelo local ejecutado con MLX sobre GPU Metal. La idea clave del proyecto es eliminar capas intermedias de traducción y reducir así latencia y complejidad.

El autor compara tres generaciones de enfoque. Primero, Ollama + proxy, con unos 30 tok/s; después, llama.cpp + TurboQuant + proxy, con 41 tok/s; y por último, MLX Native, que eleva la cifra a 65 tok/s y reduce una tarea real de Claude Code de 133 segundos a 17,6 segundos. Según el propio README, el salto no se explicaría solo por el modelo, sino por eliminar el proxy y hablar directamente el protocolo esperado por Claude Code. Es una narrativa técnicamente plausible, aunque sigue siendo una medición presentada por el desarrollador del proyecto y no una comparativa neutral.

Lo más llamativo no es solo la velocidad, sino el caso de uso que se sugiere: desarrollo de software completamente offline, con edición de archivos, gestión de proyectos y automatización local sin enviar código a la nube. En un contexto en el que cada vez más empresas se preocupan por la privacidad del código fuente y por el coste creciente de las APIs comerciales, esa posibilidad tiene un atractivo evidente.

La memoria unificada vuelve a ser la gran ventaja de Apple

La clave técnica detrás de esta demostración vuelve a ser la misma que Apple lleva años defendiendo: la arquitectura de memoria unificada. Tanto la documentación oficial de MLX como el material de Apple Machine Learning Research explican que CPU y GPU comparten el mismo pool de memoria, lo que permite manejar modelos grandes sin el cuello de botella clásico de mover datos entre VRAM y RAM separadas. En el caso del proyecto, el modelo usado sería una versión 4-bit de Qwen3.5-122B-A10B, con un tamaño aproximado de 50 GB, y el uso total de memoria rondaría los 55 GB con el modelo cargado y la caché KV cuantizada.

Ese detalle es fundamental. En una arquitectura tradicional de GPU discreta, mover un modelo de ese tamaño exigiría una tarjeta con una cantidad de VRAM muy alta o configuraciones complejas de offload. En Apple Silicon, la memoria unificada reduce esa fricción y permite que máquinas con mucha RAM integrada se conviertan en plataformas más creíbles para inferencia local de gran tamaño. Eso no significa que vayan a sustituir a estaciones con GPU dedicadas en todos los escenarios, pero sí que el equilibrio entre coste, ruido, consumo, portabilidad y privacidad empieza a jugar mucho más a favor del Mac en este nicho.

¿Es realmente más rápido que la nube?

Aquí conviene bajar un poco el tono. El autor del proyecto afirma que su configuración local supera en velocidad bruta a Claude Opus y se acerca a Claude Sonnet, al menos en tokens por segundo, y presenta una tabla en la que compara 65 tok/s locales frente a unos 40 tok/s para Opus y unos 80 tok/s para Sonnet. Esa comparación es útil como orientación, pero mezcla entornos muy distintos: un modelo local Qwen MoE, un benchmark casero, un backend ajustado al milímetro y servicios cloud cuyo comportamiento depende de red, región, carga y del propio modelo comercial. Por tanto, la comparación es interesante, pero no debería leerse como una equivalencia directa entre calidad y experiencia final.

Además, el propio ecosistema local está lejos de ofrecer un consenso absoluto sobre MLX. Otras pruebas comunitarias recientes muestran que MLX puede ser significativamente más rápido que GGUF u Ollama en ciertos escenarios, especialmente en Apple Silicon moderno, pero también hay usuarios que han encontrado casos en los que la velocidad efectiva no siempre supera a otras rutas de inferencia según el contexto y el tipo de carga. En otras palabras: el rendimiento local es real, pero todavía muy sensible a cómo se mide y a qué se está midiendo exactamente.

Un hito importante para el desarrollo local, no una victoria definitiva

Lo que sí parece claro es que la demostración toca una tecla cada vez más importante: la de usar modelos grandes de forma privada, local y con herramientas de desarrollo ya conocidas. El repositorio claude-code-local no pretende ser una plataforma universal, sino una prueba muy concreta de que un Mac con mucho músculo puede convertirse en estación de trabajo real para IA generativa sin depender de la nube. Y eso, aunque aún tenga bastante de experimento optimizado, es una señal de hacia dónde puede moverse este mercado en los próximos meses.

Apple Silicon no gana esta batalla solo por tener una GPU rápida. Gana porque combina memoria unificada, MLX, Metal y una integración relativamente limpia entre hardware y software. Si la comunidad sigue encontrando maneras de aprovechar esa combinación sin capas innecesarias, los Mac de gama alta podrían consolidarse como una de las plataformas más serias para inferencia local de gran tamaño. No para todo el mundo, pero sí para un grupo creciente de desarrolladores, investigadores y perfiles técnicos que prefieren pagar una vez por el hardware y olvidarse después de las cuotas por token.

Preguntas frecuentes

¿Qué modelo está ejecutando el M5 Max en esta demostración?
El proyecto y el post de Reddit hablan de Qwen3.5-122B-A10B en una versión MLX 4-bit, con un tamaño cercano a 50 GB y unos 55 GB de uso de memoria total con la caché activa.

¿La velocidad de 65 tokens por segundo está verificada por Apple?
No. Es una cifra publicada por el autor del proyecto en Reddit y en GitHub. Encaja con la evolución de Apple Silicon y con otras pruebas comunitarias, pero no es un benchmark oficial de Apple ni una validación independiente cerrada.

¿Qué papel juega MLX en este tipo de inferencia local?
MLX es el framework de machine learning de Apple optimizado para Apple Silicon y para su arquitectura de memoria unificada. Permite ejecutar modelos aprovechando la GPU Metal y compartir memoria entre CPU y GPU sin las limitaciones típicas de sistemas con RAM y VRAM separadas.

¿Puede un Mac sustituir a una GPU dedicada para ejecutar LLM grandes?
Depende del caso. Para inferencia local de modelos grandes cuantizados, Apple Silicon de gama alta se está volviendo muy competitivo por su memoria unificada y su eficiencia. Pero eso no significa que sustituya en todos los casos a estaciones con GPU dedicadas, especialmente en entrenamiento o cargas mucho más exigentes.