La IA abierta ya no es una opción barata: empieza a ser una estrategia

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Durante meses, muchas empresas han tomado una decisión casi automática: pagar una API comercial, integrar el modelo dominante del momento y dejar para más adelante la discusión sobre costes, dependencia tecnológica o control de datos. Ese enfoque funcionaba cuando la Inteligencia Artificial era un piloto, una capa experimental o una función secundaria. Pero empieza a quedarse corto cuando los modelos entran en procesos internos, productos de cliente, agentes de software, soporte, análisis documental y flujos de negocio con millones de tokens al día.

El mercado se está moviendo más rápido de lo que sugieren muchos discursos comerciales. Ya hay modelos abiertos que compiten con soluciones cerradas en tareas concretas, chips diseñados solo para inferencia que prometen latencias muy por debajo de las arquitecturas GPU tradicionales, plataformas especializadas que exprimen más tokens por GPU-hora y estándares como MCP que reducen parte del bloqueo a un único proveedor. La pregunta ya no es si una empresa debe usar OpenAI, Anthropic, Google o modelos abiertos. La pregunta real es qué arquitectura le permite cambiar de modelo, controlar costes y mantener sus datos bajo gobierno.

GLM-5.1, Apertus y Cohere: el valor se desplaza hacia casos de uso concretos

El ejemplo más llamativo en modelos abiertos es GLM-5.1, de Z.ai. La ficha del modelo en Hugging Face lo presenta con licencia MIT, 754.000 millones de parámetros en BF16 y soporte para despliegue local mediante frameworks como vLLM o SGLang. En los resultados publicados por Z.ai, GLM-5.1 obtiene 58,4 puntos en SWE-Bench Pro, por encima de GPT-5.4, Claude Opus 4.6 y Gemini 3.1 Pro en esa prueba concreta. También se presenta como un modelo orientado a ingeniería agéntica, con 744.000 millones de parámetros totales y 40.000 millones activos por paso en su arquitectura MoE.

Conviene matizar el titular fácil. Que un modelo sea abierto o tenga licencia permisiva no significa que usarlo cueste cero. Descargar pesos no elimina el coste de GPUs, memoria, ingeniería, monitorización, seguridad ni mantenimiento. Tampoco convierte un benchmark en superioridad universal. GLM-5.1 puede ser muy competitivo en programación y tareas largas, pero una empresa tiene que medirlo con sus propios repositorios, datos, herramientas y restricciones de latencia antes de sustituir un modelo cerrado.

Apertus apunta en otra dirección. Desarrollado por EPFL, ETH Zurich y el Swiss National Supercomputing Centre, se presenta como uno de los modelos más abiertos del mercado: arquitectura, pesos, datos de entrenamiento y métodos están documentados y accesibles. No compite todavía con los modelos frontera en rendimiento general, pero marca un camino interesante para Europa: IA como infraestructura pública, trazable, multilingüe y diseñada con atención a soberanía, transparencia y cumplimiento regulatorio.

Cohere, por su parte, demuestra que no todo el mercado empresarial se gana persiguiendo el benchmark más vistoso. Command A es un modelo de 111.000 millones de parámetros con contexto de 256.000 tokens, orientado a RAG, agentes, uso de herramientas y casos multilingües. Cohere afirma que puede ejecutarse en solo dos GPUs A100 o H100, con un 150 % más de throughput frente a su predecesor Command R+. Reuters informó en 2025 de que la compañía había duplicado su ingreso anualizado hasta 100 millones de dólares apoyándose en clientes empresariales y despliegues privados.

Tecnología	Qué aporta	Matiz importante
GLM-5.1	Modelo abierto muy fuerte en programación y tareas agénticas	No es “gratis” en producción: hay coste de infraestructura
Apertus	Transparencia completa y enfoque soberano europeo	No está al nivel de los modelos frontera cerrados
Cohere Command A	IA empresarial eficiente para RAG, agentes y despliegues privados	Compite por utilidad empresarial, no por dominar todos los rankings
MCP	Estándar abierto para conectar agentes con herramientas	Reduce lock-in, pero exige controles de seguridad
Groq	Hardware especializado en inferencia de baja latencia	No sustituye a las GPUs para entrenamiento
Fireworks AI	Inferencia optimizada para modelos abiertos	Sigue siendo infraestructura gestionada, no autogestión total

Inferencia: el nuevo campo de batalla después del entrenamiento

Durante la primera fase de la IA generativa, la conversación giraba alrededor del entrenamiento: clusters de GPUs, modelos más grandes, más datos y más parámetros. Ahora el cuello de botella se desplaza hacia la inferencia. Cada producto con IA tiene que responder a usuarios reales, mantener latencia baja, controlar coste por token y sostener picos de demanda sin degradarse.

Ahí encajan compañías como Groq. Su arquitectura LPU está diseñada específicamente para inferencia, no para entrenamiento. Groq publicita un stack de baja latencia y coste contenido, con ejecución predecible y presencia de clientes o usuarios como Dropbox, Vercel, Chevron, Volkswagen, Canva, Robinhood, Riot Games, Workday y Ramp. La compañía sostiene que su LPU, creada en 2016, fue el primer chip pensado desde el inicio para inferencia de lenguaje.

La afirmación de “10 veces más rápido que NVIDIA” debe leerse con cuidado. Groq ha usado ese tipo de comparación en mensajes comerciales y notas de rendimiento, pero no es una regla universal para todos los modelos, todos los tamaños, todos los lotes ni todos los escenarios. NVIDIA sigue dominando entrenamiento, ecosistema CUDA, disponibilidad de software y gran parte de la inferencia a escala. La ventaja de Groq está en cargas donde la latencia, la predictibilidad y el tiempo de respuesta pesan más que la flexibilidad general de una GPU.

Fireworks AI representa otra vía. No fabrica chips, sino que exprime infraestructura de inferencia para modelos abiertos. En octubre de 2025 anunció una ronda de 250 millones de dólares con una valoración de 4.000 millones, respaldada por inversores como Lightspeed, Index, Evantic, Sequoia y con participación estratégica de NVIDIA, AMD, MongoDB y Databricks. AWS recoge en un caso de estudio que Fireworks.ai entrega hasta cuatro veces más throughput por instancia que soluciones open source y reduce latencia en algunos clientes.

El punto común es claro: el valor ya no está solo en tener “el mejor modelo”. Está en servirlo bien. Una empresa puede gastar demasiado con un modelo excelente si su arquitectura hace llamadas innecesarias, no cachea, usa contexto excesivo o ejecuta cada tarea con el modelo más caro. También puede obtener buenos resultados con modelos más pequeños, si los combina con RAG, herramientas, buenos datos internos y una capa de inferencia eficiente.

MCP y el fin del agente atado a un único proveedor

El otro cambio importante está en la integración. Anthropic donó el Model Context Protocol a la Agentic AI Foundation, un fondo bajo la Linux Foundation cofundado por Anthropic, Block y OpenAI, con apoyo de Google, Microsoft, AWS, Cloudflare y Bloomberg. MCP nació como un estándar abierto para conectar aplicaciones de IA con herramientas, datos y sistemas externos. Anthropic afirma que ya existen más de 10.000 servidores MCP públicos activos y que el protocolo ha sido adoptado por ChatGPT, Cursor, Gemini, Microsoft Copilot, Visual Studio Code y otros productos.

Este punto importa más de lo que parece. En una arquitectura agéntica, el modelo no trabaja aislado. Consulta bases de datos, lee documentos, llama APIs, ejecuta comandos, abre tickets, escribe código o modifica sistemas. Si todas esas conexiones están diseñadas para un proveedor concreto, cambiar de modelo se vuelve caro. MCP no elimina todo el lock-in, pero permite separar mejor la capa de herramientas de la capa de modelo.

También introduce riesgos. Conectar agentes a herramientas reales exige permisos mínimos, auditoría, aislamiento, control de secretos, validación de inputs y límites de ejecución. Un estándar abierto ayuda a no quedar atrapado, pero no sustituye a una arquitectura de seguridad. En IA empresarial, interoperabilidad sin gobierno puede ser tan peligrosa como dependencia propietaria.

El coste real: cuándo conviene self-hosting y cuándo no

El gran error de muchas empresas es pensar que “open source” significa automáticamente “más barato”. No siempre. Si una compañía procesa pocos tokens al día, una API comercial puede ser más económica que alquilar GPUs, desplegar vLLM, monitorizar colas, gestionar actualizaciones, asegurar disponibilidad y pagar ingeniería especializada.

El punto de cruce depende del modelo, la mezcla de entrada y salida, la latencia requerida, la utilización de GPU y el coste operativo. Un análisis académico publicado en arXiv sobre inferencia privada en GPUs de consumo Blackwell estima que el self-hosting alcanza paridad con APIs comerciales en uno a cuatro meses con volúmenes moderados de 30 millones de tokens diarios, y después puede operar entre 40 y 200 veces más barato que modelos cloud económicos en ciertos escenarios. Otros análisis sitúan el umbral práctico entre 10 y 30 millones de tokens diarios para que el self-hosting empiece a ser claramente atractivo, aunque la cifra varía mucho según el caso.

La conclusión útil es menos espectacular, pero más honesta: por debajo de cierto volumen, la API suele ganar por simplicidad. Por encima, especialmente cuando hay requisitos de residencia de datos, latencia estable, modelos propios o costes unitarios críticos, controlar infraestructura puede reducir mucho la factura. La mayoría de empresas no necesita elegir entre API o self-hosting de forma absoluta. Lo razonable será una arquitectura híbrida: modelos comerciales para tareas frontera, modelos abiertos para volumen, RAG interno para conocimiento corporativo y hardware especializado cuando la inferencia sea el producto.

El mensaje para los CIOs y CTOs es directo. Antes de renovar contratos millonarios de IA, hay que medir. Qué modelos resuelven cada tarea. Cuántos tokens se consumen. Qué latencia necesita el usuario. Qué datos pueden salir de la empresa. Qué herramientas usa el agente. Qué parte del coste está en el modelo y qué parte en una arquitectura mal diseñada.

La IA empresarial empieza a entrar en una fase menos ingenua. Los modelos cerrados seguirán siendo importantes, pero ya no son la única ruta. Los modelos abiertos han alcanzado niveles muy altos en tareas específicas. La inferencia se ha convertido en una industria propia. Los estándares abiertos empiezan a reducir dependencias. Y Europa, con proyectos como Apertus, intenta que soberanía no sea solo una palabra en documentos regulatorios.

La ventaja competitiva no será pagar la API más cara ni presumir del modelo más nuevo. Será construir una arquitectura capaz de cambiar de proveedor, medir costes, proteger datos y usar el modelo adecuado para cada trabajo. En la IA que viene, el poder no estará en el prompt. Estará en la infraestructura, la integración y los datos.

Preguntas frecuentes

¿Un modelo abierto como GLM-5.1 puede sustituir a Claude o GPT?
Puede competir o superar a modelos cerrados en tareas concretas, como ciertos benchmarks de programación, pero no debe asumirse una superioridad general. La decisión debe validarse con pruebas propias.

¿El self-hosting de modelos abiertos siempre es más barato?
No. Suele tener sentido cuando hay mucho volumen, requisitos fuertes de privacidad o necesidad de control. Para usos pequeños o variables, una API comercial puede salir más barata.

¿Qué aporta MCP a una arquitectura de IA empresarial?
Permite conectar agentes con herramientas y datos mediante un estándar abierto, lo que facilita cambiar de modelo sin reescribir todas las integraciones.

¿Groq sustituye a NVIDIA?
No de forma general. Groq está especializado en inferencia de baja latencia. NVIDIA sigue siendo dominante en entrenamiento, ecosistema software y muchas cargas de inferencia a gran escala.