Cómo montar un agente de Inteligencia Artificial por 0 euros sin pagar OpenAI

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

La idea de que hace falta una suscripción de 20 dólares al mes o una API de pago para tener un agente de Inteligencia Artificial funcional empieza a quedarse vieja. En 2026 ya existe un ecosistema suficientemente maduro para construir un agente capaz de razonar, usar herramientas y automatizar tareas sin depender de OpenAI o Anthropic y, en muchos casos, sin pagar nada en licencias o consumo de API. La combinación de modelos abiertos, herramientas locales y servicios con capa gratuita ha cambiado bastante el tablero.

La clave está en entender qué es realmente un agente. No se trata solo de un chatbot que responde texto, sino de un sistema que usa un modelo como “cerebro” y lo conecta con acciones concretas: buscar en la web, leer un archivo, consultar una base de datos, ejecutar una tarea o encadenar varios pasos hasta llegar a un objetivo. Hoy eso puede montarse con herramientas visuales, con frameworks para agentes o con flujos locales bastante sencillos.

La vía más simple: usar Ollama en local

La opción más directa para quien quiere empezar sin costes recurrentes es Ollama. Su documentación oficial deja claro que funciona como aplicación nativa en Windows y expone una API local en http://localhost:11434, lo que permite ejecutar modelos abiertos directamente en el equipo y conectarlos después con otros frameworks o herramientas. Además, Ollama ofrece compatibilidad con la OpenAI Responses API y también con la Anthropic Messages API, lo que facilita reutilizar proyectos y clientes ya pensados para esos ecosistemas.

Eso tiene una ventaja muy importante: si el modelo corre en el portátil o en el PC del usuario, los datos no tienen por qué salir de esa máquina. Para tareas sensibles, internas o experimentales, esa diferencia sigue siendo enorme frente a una API pública. Y para quien quiera empezar sin demasiadas complicaciones, Ollama ya ofrece modelos muy conocidos en su librería, como Qwen2.5 7B, Mistral 7B o Phi-3 Mini. En la propia librería de Ollama, Qwen2.5 7B aparece con un paquete cuantizado de 4,7 GB, Mistral 7B con 4,1 GB y Phi-3 Mini con 2,2 GB, lo que da una idea bastante clara del tipo de hardware doméstico en el que se pueden probar.

Un arranque básico en macOS o Linux puede ser tan simple como esto:

brew install ollama
ollama pull qwen2.5:7b
ollama run qwen2.5:7b

Ese enfoque no convierte automáticamente a un modelo en un agente, pero sí crea la pieza central sobre la que luego se puede construir la lógica de herramientas, memoria y automatización. La gracia está en que, al hablar por una API local compatible con formatos conocidos, se puede enganchar casi cualquier capa superior sin rehacer todo desde cero.

Cuando sí tiene sentido usar nube gratis

No todo el mundo quiere o puede ejecutar modelos en local. Ahí entran varias alternativas en la nube que siguen permitiendo prototipar sin coste inicial. Groq afirma en su propia web que ofrece una free tier generosa con acceso a todos sus modelos, y su documentación de comunidad añade que esa capa gratuita puede usarse sin tarjeta, aunque con límites de uso. No es una opción pensada para producción intensiva, pero sí para pruebas, demos y agentes personales ligeros.

OpenRouter, por su parte, ofrece dos rutas interesantes. La primera es openrouter/free, un router que selecciona automáticamente un modelo gratuito compatible con la petición. La segunda es el sufijo :free, que permite invocar variantes gratuitas de ciertos modelos. Su propia documentación avisa de que estas variantes pueden tener límites o disponibilidad distintos respecto a las de pago, pero para experimentar con varios modelos sin atarse a un proveedor concreto sigue siendo una opción muy atractiva.

En el caso de Google AI Studio, Google mantiene una free tier para la Gemini Developer API, con acceso gratuito a ciertos modelos y a AI Studio, aunque su propia documentación deja claro que hay límites y que no todos los modelos entran igual en esa capa. Es una ruta útil para quien quiera probar un agente sin montar nada en local, pero con la contrapartida evidente de que el tráfico y los datos dejan el equipo del usuario.

Dos formas reales de construir el agente

Una vez resuelto el modelo, llegan las dos vías prácticas. La primera es la no-code o low-code, donde herramientas como Langflow permiten construir aplicaciones de IA con un editor visual. Langflow se define como un framework open source en Python para crear aplicaciones de IA, con soporte para agentes y MCP, y sin obligar a usar un proveedor concreto de LLM o de vector database. Dicho de forma menos académica: permite conectar bloques y montar el flujo del agente sin empezar escribiendo una arquitectura completa a mano.

La segunda es la vía code-first, donde frameworks como CrewAI y LangGraph encajan mejor. CrewAI se presenta como una plataforma para diseñar agentes, orquestar “crews” y automatizar flujos con memoria, conocimiento y observabilidad. LangGraph, en cambio, está más orientado a flujos largos y con estado, y su documentación insiste precisamente en eso: aportar infraestructura de bajo nivel para agentes y workflows duraderos sin abstraer en exceso la arquitectura. En otras palabras, CrewAI resulta cómodo para equipos que quieren definir roles y tareas colaborativas, mientras que LangGraph encaja mejor cuando se necesita control fino del flujo y de la lógica de decisión.

Hay además una tercera familia que merece atención: la automatización visual generalista. n8n sigue siendo una de las referencias para ese terreno. Su documentación oficial explica que la edición self-hosted funciona como Community Edition gratuita sin licencia adicional, y que además dispone de un AI Starter Kit pensado precisamente para construir flujos de IA autoalojados. Eso sí, n8n también advierte de que el autoalojamiento exige conocimientos reales de servidor, seguridad y operación. No es una puerta de entrada tan sencilla como Ollama, pero para quien ya trabaja con automatización es una base muy potente.

Lo que sí funciona y lo que sigue costando

La narrativa de “agente gratis” es correcta, pero conviene evitar la fantasía. Hoy ya es perfectamente viable montar agentes locales para resumir documentos, redactar textos, reescribir contenido, consultar archivos, responder sobre una base documental o ejecutar flujos sencillos con herramientas. En ese escenario, una combinación como Ollama + Langflow o Ollama + CrewAI ya puede dar resultados muy sólidos para uso individual o pruebas internas. Esa conclusión se desprende del tipo de capacidades que documentan estas plataformas y de la compatibilidad que ya ofrecen entre sí.

Lo que sigue siendo más difícil es la coordinación compleja entre muchos agentes, los árboles largos de decisión y las cadenas de herramientas con lógica muy condicional cuando se trabaja con modelos pequeños. No porque sea imposible, sino porque ahí importan mucho más la calidad del modelo, la latencia, el contexto y la robustez del framework. En la práctica, cuanto más sofisticado es el flujo, más se nota la diferencia entre un 7B local y un modelo más grande o una API más rápida. Esa es una inferencia técnica razonable a partir del tipo de infraestructuras y enfoques que documentan CrewAI, LangGraph y Ollama.

La otra limitación es más terrenal: gratis no significa infinito. Los modelos locales ocupan espacio, consumen RAM o VRAM y no todos los equipos van a moverlos con soltura. Las nubes gratuitas imponen límites de peticiones o tokens. Y esas capas free pueden cambiar con el tiempo, como muestran las páginas oficiales de Groq, Google y OpenRouter, que subrayan la existencia de límites o la naturaleza variable de la oferta gratuita. La arquitectura ideal, por tanto, no es la que depende de un único proveedor milagroso, sino la que puede cambiar de backend con poco esfuerzo.

El punto de partida más razonable

Para quien quiera una respuesta concreta, la ruta más sensata hoy sería empezar con Ollama y un modelo de tamaño medio como Qwen2.5 7B o Mistral 7B, y por encima de eso usar Langflow si se busca algo visual o CrewAI si se prefiere escribir la lógica. Si el equipo no puede con inferencia local o si se busca más velocidad, entonces tiene sentido cambiar el backend a Groq, OpenRouter o Google AI Studio manteniendo la misma capa de agente. Lo importante ya no es si se puede montar un agente por 0 euros. Lo importante es que, en 2026, por fin se puede montar uno de forma razonable sin depender obligatoriamente de OpenAI.

Preguntas frecuentes

¿De verdad se puede montar un agente de IA sin pagar API?
Sí. Se puede ejecutar un modelo local con Ollama y conectarlo a frameworks de agentes como Langflow o CrewAI sin necesidad de pagar una API externa. También existen capas gratuitas en Groq, OpenRouter y Google AI Studio para prototipado.

¿Qué es lo más sencillo para empezar?
La combinación más accesible suele ser Ollama + Langflow: Ollama pone el modelo en local y Langflow aporta un editor visual para crear el flujo del agente.

¿Se puede reutilizar software pensado para OpenAI o Anthropic?
En muchos casos, sí. Ollama documenta compatibilidad tanto con la OpenAI Responses API como con la Anthropic Messages API, lo que simplifica bastante la integración con herramientas ya existentes.

¿Qué modelos locales tienen sentido para un portátil normal?
Entre los más razonables para empezar están Qwen2.5 7B, Mistral 7B y Phi-3 Mini, disponibles en la librería oficial de Ollama.

¿Cuál es la gran limitación de la opción gratis?
Los límites de hardware en local, la latencia, el espacio ocupado por los modelos y las cuotas de las capas gratuitas en la nube. Funciona, pero exige más criterio técnico y más flexibilidad que una suscripción cerrada.