Top 8 LLM locales para correr “en casa” (diciembre de 2025): la lista que está circulando y lo que dice sobre el nuevo “home-lab era”

En el ecosistema de la IA local hay un fenómeno curioso: cada mes aparecen listas “de trinchera” que no vienen de un laboratorio académico ni de un informe corporativo, sino de gente que de verdad está cargando modelos en su propio hardware y midiendo lo que importa cuando hay que sacar trabajo. En diciembre de 2025 se ha viralizado una clasificación de “Top 8 Local LLMs” que mezcla modelos gigantes, variantes cuantizadas y una obsesión muy concreta: agentes que arreglan cosas (código, flujos, herramientas) sin perderse en repositorios grandes ni en contextos largos.

La lista no pretende ser un estándar oficial, sino un termómetro de comunidad: qué modelos están resultando “más útiles” en tareas reales de local-AI —especialmente agentic coding, edición multi-archivo, tool use y asistentes que aguantan tickets, logs y repos enormes sin desorientarse.

El patrón común: ya no gana el “más listo”, gana el “más operativo”

El hilo que acompaña a la imagen (atribuido a un autor en redes) no se recrea en marketing. La idea se repite: no flashy, just relentlessly effective. La prioridad no es escribir bonito, sino entregar resultados con comportamientos predecibles: estructura, consistencia, capacidad de seguir un objetivo y no romper el proyecto a la primera.

Ese cambio de criterio es importante: durante años se hablaba de “el modelo más inteligente”. Ahora, para un perfil técnico, la pregunta suele ser otra: ¿cuál me deja avanzar sin pelearme con él?

El ranking (y cómo lo “vende” la comunidad)

1) Devstral-2-123B — “mejor para programar”

Se coloca como número uno por su enfoque en SWE / agentic coding y por lo que el autor describe como una habilidad especialmente valiosa: ediciones limpias multi-archivo y tool use “sano”. El argumento clave no es solo la calidad, sino el contexto grande (256.000 tokens) como ventaja práctica: repos, tickets, trazas y documentación incompleta “caben” sin que el modelo pierda el hilo de por qué estás ahí.

También se menciona una realidad de infraestructura: para mantener ese contexto alto, el autor lo sitúa en configuraciones tipo 2 GPU RTX PRO 6000 o incluso 8 RTX 3090 en modo laboratorio casero.

2) MiniMax-M2 — “agentic workflows” y UI/Design

Aquí el motivo de la medalla de plata es el rendimiento en flujos agénticos, con énfasis en “interleaved thinking” (una forma de alternar razonamiento y ejecución). Se le atribuye buen nivel tanto en programación como en UI/diseño, y vuelve a aparecer la misma clase de requisitos para correrlo con holgura cuando se usa contexto grande y tareas largas.

3) GLM-4.5-Air — “daily driver” para casi todo

El tercer puesto se describe como el todoterreno: el que se usa a diario para tareas generales que no son pura programación. El hilo menciona una ventaja muy “de operaciones”: menos consumo de GPU y menos memoria para KV cache, lo que permite levantar más agentes en paralelo sin saturar el sistema.

A nivel de contexto sectorial, sí hay un dato que encaja con esta familia: Zhipu anunció la publicación open-source de GLM-4.5 orientado a aplicaciones de agentes, reforzando la idea de que la competición china también está empujando fuerte por modelos pensados para “hacer cosas”, no solo conversar.

4) Qwen3-VL-235B-A22B — “Best VLM” (multimodal / visual agent)

La lista coloca aquí su apuesta principal para multimodalidad: un asistente visual capaz de lidiar con documentos densos y material largo (el texto menciona 256.000 ampliable hasta 1.000.000 tokens, en ciertas configuraciones/variantes). El discurso es claro: no es solo “ver imágenes”, sino actuar como agente visual: detectar elementos, entender interfaces, ayudar a etiquetar, y en algunos casos “razonar” sorprendentemente bien incluso frente a modelos solo-texto.

En Hugging Face existen variantes del modelo empaquetadas para flujos concretos (por ejemplo, builds/exports tipo GGUF para una variante “Thinking”).

5) GLM-4.6 (REAPed) — “cuando hace falta el ‘big brain’”

El quinto puesto se presenta como el comodín pesado: cuando el segundo no llega, se saca el “cerebro grande”. El mensaje sugiere que es un modelo grande y capaz, especialmente para programación avanzada y tareas agénticas, aunque con el coste obvio: más hardware y más disciplina para que no se convierta en un “elefante” difícil de mover.

6) NVIDIA Nemotron-3-Nano-30B-A3B — “punches above its weight”

El sexto puesto es interesante porque rompe el patrón de “más grande es mejor”. Aquí el relato es: parece pequeño, se comporta más grande. Se enfatiza su buen comportamiento en tool use, salidas estructuradas y fiabilidad, y se le atribuye esa cualidad que muchos buscan en local-AI: spin up five agents without guilt (es decir, levantar varios agentes sin que el consumo se dispare).

7) GPT-OSS-120B — “GPT-5 at home” (según el autor)

En séptimo lugar aparece un modelo que el hilo califica como muy inteligente y consistente para agentes y código, con una pega subjetiva: “seco” escribiendo. Es un recordatorio de algo frecuente en entornos técnicos: cuando el objetivo es productividad, la prosa bonita puntúa menos que la consistencia.

8) GPT-OSS-20B — “speed monster”

Cierra el top un modelo pequeño (comparativamente) que se destaca por baja latencia y buen rendimiento en tool calling cuando el contexto es corto. Es el típico perfil “arregla-bugs” rápido: instrucciones claras, respuestas directas, y poca tolerancia a sesiones eternas.

Bonus: Qwen3-Coder-30B
Se menciona como extra por su relación potencia/recursos, especialmente si se cuantiza y se busca un modelo sólido para completar o ayudar a programar sin exigir una infraestructura monstruosa.

Qué leer entre líneas: la era del “modelo-herramienta”

Más allá del orden, la lista apunta a tres conclusiones prácticas:

  • El “modelo ideal” para casa suele ser el que no se rompe: sigue el plan, no alucina estructura, y edita con cuidado.
  • El contexto largo se está convirtiendo en una ventaja real cuando se trabaja con repositorios, incidencias y documentación dispersa (no solo para “meter PDFs”).
  • La comunidad está midiendo el valor en términos de operatividad: agentes paralelos, coste de KV cache, tool use, y capacidad de ejecutar sin arrastrar los pies.

Preguntas frecuentes

¿Qué significa que un LLM sea bueno para “agentic coding” en local?
Que no solo escribe fragmentos, sino que puede planificar cambios, editar varios archivos, respetar convenciones del proyecto y usar herramientas (tests, linters, búsqueda) sin perder el objetivo.

¿Cuánta VRAM necesito para correr modelos de 100B+ en casa?
Depende de cuantización, contexto y KV cache. En la práctica, para modelos grandes con contexto alto, la comunidad suele hablar de configuraciones multi-GPU (por ejemplo, varias GPU de gama alta) o de sacrificar contexto/velocidad.

¿Qué aporta AWQ 4-bit frente a ejecutar en FP16/FP8?
AWQ es una cuantización pensada para reducir memoria (y facilitar que el modelo “quepa”) a costa de ciertas pérdidas. En local-AI, muchas veces es la diferencia entre poder usar un modelo grande o no poder cargarlo.

¿Qué modelo conviene si quiero un asistente visual (VLM) para documentos e imágenes?
Un VLM fuerte suele ser mejor que un modelo solo-texto cuando necesitas entender capturas, interfaces, diagramas o extraer estructura visual. En la lista, el enfoque multimodal se lo lleva Qwen3-VL.

Scroll al inicio