¿Se puede usar un modelo local “en Claude Code” para programar sin pagar a un proveedor?

En los últimos meses se ha extendido una idea tentadora entre desarrolladores: mantener la experiencia de Claude Code —el asistente de programación en terminal/IDE— pero sustituyendo el modelo de Anthropic por uno local (vía Ollama u otros servidores). En redes suele presentarse como “usar Claude Code gratis”, aunque la realidad es más matizada: no se obtiene Claude (el modelo) sin coste, sino que se intenta usar el cliente de Claude Code como interfaz para hablar con otro modelo que corre en local o en una infraestructura propia.

La clave de por qué esto es siquiera posible está en que Claude Code admite proveedores de terceros y, además, contempla un “LLM gateway”: una capa intermedia a la que el cliente se conecta y que puede redirigir las peticiones a distintos backends. Dicho gateway se configura con variables de entorno (por ejemplo, una URL base y credenciales) y está pensado para escenarios corporativos o de control de red, donde interesa centralizar políticas, trazabilidad y seguridad.

El matiz importante: Claude Code no “habla” Ollama de forma nativa

El gran choque con muchos tutoriales virales es el siguiente: Ollama expone su propia API (por defecto en localhost:11434) con endpoints como /api/generate y /api/chat.
Claude Code, en cambio, cuando se integra con un gateway, espera que ese gateway presente una interfaz compatible con Anthropic (por ejemplo, el Messages API) o con determinados proveedores/formatos soportados por el propio producto.

Eso significa que, si alguien apunta “a pelo” la base URL de Claude Code a http://localhost:11434, lo más probable es que no funcione salvo que exista un proxy que traduzca entre protocolos (por ejemplo, de Anthropic Messages → API de Ollama, o mediante una pasarela que “hable” el dialecto esperado por Claude Code). La idea general se sostiene; el “atajo” de copiar tres variables de entorno, no siempre.

Entonces, ¿qué es lo que sí encaja técnicamente?

El patrón que están explorando muchos equipos se parece a esto:

  1. Cliente: Claude Code (terminal o IDE).
  2. Gateway/Proxy: un servicio intermedio que expone la interfaz que Claude Code entiende y aplica políticas.
  3. Backend: un modelo local o autoalojado (Ollama, vLLM u otro servidor).

Claude Code documenta precisamente la existencia de ese gateway y su configuración por variables de entorno, incluyendo ANTHROPIC_BASE_URL y mecanismos de autenticación hacia el gateway (token/clave), además de opciones de cabeceras adicionales.

Por la parte local, Ollama encaja bien como motor porque es sencillo de desplegar y ofrece una API local estándar para generar y chatear con modelos, además de un catálogo amplio que incluye familias como Qwen, Gemma o DeepSeek, entre otras.

Por qué a los sysadmins les interesa (más allá del “gratis”)

El atractivo real no es tanto el ahorro “a cero”, sino cambiar el modelo de riesgo:

  • Soberanía del código: parte del flujo puede quedarse en local o en un entorno controlado.
  • Reducción de exposición: se limita qué sale de la máquina (útil en repos privados o sectores regulados).
  • Coste predecible: se intercambia factura por uso por coste de hardware/energía/operación.
  • Gobernanza: el gateway permite imponer reglas (por ejemplo, auditar peticiones, bloquear herramientas, aplicar listas de allow/deny).

Claude Code, además, se vende como herramienta lista para integrarse en flujos de trabajo y admite entornos corporativos con control centralizado mediante ese enfoque de gateway.

Lo que se suele omitir: “gratis” no significa “sin coste”

Incluso si se consigue que Claude Code funcione contra un modelo local, hay tres “peajes” inevitables:

  • Compute: un modelo útil para programación exige CPU/GPU y memoria. La latencia y el rendimiento pasan a ser tu problema.
  • Calidad: un modelo local puede rendir muy bien en tareas concretas, pero no equivale automáticamente a Claude Opus o similares.
  • Mantenimiento: actualizar modelos, vigilar logs, asegurar el gateway/proxy, rotar credenciales y evitar fugas.

Dicho de otra forma: se cambia un coste variable (API) por un coste fijo y operativo (infraestructura). Para muchos equipos —sobre todo los que ya operan clústeres o tienen política estricta de datos— ese intercambio merece la pena.

Seguridad: lo que sí conviene afirmar con “barandillas” duras

En redes se repite una promesa: “el agente no puede ver tus claves, no puede tocar carpetas no compartidas, no puede enviar emails sin confirmar”. Ese resultado es posible, pero no sale gratis por defecto: depende de cómo se diseñen las capas.

  • El cliente (Claude Code) debe ejecutar con permisos limitados.
  • El gateway debe validar identidad, registrar acciones y aplicar políticas.
  • El backend local debe estar aislado (contenedor/VM) si se teme que una integración exponga demasiado.

La parte importante para un medio técnico no es el truco, sino el principio: si el LLM no tiene ruta hacia secretos ni herramientas, no puede “inventárselas”. Eso es ingeniería de permisos, no prompting.


Preguntas frecuentes

¿Esto permite usar Claude (Opus/Sonnet) gratis?
No. Lo que se intenta es usar Claude Code como interfaz, pero hablando con otro modelo (normalmente local). Para usar modelos de Anthropic, se necesita una vía legítima (suscripción, cuenta o proveedor compatible).

¿Por qué no funciona siempre apuntar Claude Code directamente a localhost:11434?
Porque Ollama expone endpoints propios (/api/chat, /api/generate) y Claude Code, en modo gateway, espera una interfaz compatible con Anthropic o con proveedores soportados. Suele hacer falta un proxy que traduzca protocolos.

¿Qué aporta un “LLM gateway” en un entorno de empresa?
Centraliza control: autenticación, auditoría, políticas de red, límites de uso y, en general, gobernanza del acceso a modelos y herramientas.

¿Es una buena idea para equipos de sysadmin y dev con repositorios sensibles?
Puede serlo si el objetivo es reducir exposición de código y tener trazabilidad. Pero exige asumir operación (infraestructura, actualizaciones y hardening) y validar que el modelo local alcanza la calidad necesaria para el tipo de trabajo.

Scroll al inicio