La industria de la inteligencia artificial empieza a entrar en una fase menos cómoda que la de los grandes anuncios de modelos. Durante los últimos años, buena parte del discurso se apoyó en una idea sencilla: cada nueva generación sería más capaz y, al mismo tiempo, más barata de usar. Esa promesa está dejando de ser tan evidente. Los modelos mejoran, pero también razonan más, consumen más contexto, generan más pasos intermedios y elevan el coste real de ejecutar tareas complejas.
El caso de Gemini 3.5 Flash resume bien el cambio. Google lo presenta como un modelo rápido y eficiente dentro de su familia Gemini, pensado para equilibrar inteligencia, velocidad y coste. Pero el análisis de Artificial Analysis introduce un matiz importante: ejecutar su índice completo con Gemini 3.5 Flash cuesta 1.552 dólares, 5,5 veces más que con Gemini 3 Flash y un 75 % más que con Gemini 3.1 Pro. La subida no se explica solo por la tarifa oficial, sino por el número de tokens y turnos necesarios para completar evaluaciones más agénticas.
La diferencia entre precio nominal y coste efectivo va a ser uno de los grandes temas de la IA empresarial. Una tabla de precios por millón de tokens sirve para comparar proveedores, pero no siempre dice cuánto cuesta resolver una tarea. Si un modelo barato necesita más rondas, más contexto o más salida para llegar al resultado, puede terminar siendo más caro que otro con una tarifa aparentemente superior.
Del precio por token al coste real de ejecución
Google lista Gemini 3.5 Flash a 1,50 dólares por millón de tokens de entrada y 9 dólares por millón de tokens de salida, incluyendo thinking tokens. Es una tarifa competitiva frente a los modelos más caros de OpenAI o Anthropic, pero triplica el precio de Gemini 3 Flash según el propio análisis de Artificial Analysis.
OpenAI, por su parte, sitúa GPT-5.5 en 5 dólares por millón de tokens de entrada, 0,50 dólares por millón de tokens cacheados y 30 dólares por millón de tokens de salida. Anthropic mantiene Claude Opus 4.7 en 5 dólares por millón de tokens de entrada y 25 dólares por millón de salida, con descuentos por caché y procesamiento batch.
La lectura rápida sería decir que Google sigue siendo más barato. La lectura financiera es más exigente: hay que mirar cuánto cuesta completar la tarea, no solo cuánto cuesta cada unidad de texto. En agentes de programación, análisis documental, automatización de procesos o flujos de soporte, el gasto depende de la combinación entre precio, tokens de entrada, tokens de salida, caché, número de iteraciones y calidad final.
| Modelo o plataforma | Tarifa visible | Lo que cambia en el coste real | Lectura para empresas |
|---|---|---|---|
| Gemini 3.5 Flash | 1,50 $ entrada / 9,00 $ salida por 1M tokens | Artificial Analysis mide 5,5x más coste de ejecución que Gemini 3 Flash | El precio por token no basta si sube el número de turnos y tokens usados |
| GPT-5.5 | 5,00 $ entrada / 30,00 $ salida por 1M tokens | Coste alto en tareas con mucha generación o razonamiento largo | Conviene reservarlo para tareas donde aporte valor claro |
| Claude Opus 4.7 | 5,00 $ entrada / 25,00 $ salida por 1M tokens | OpenRouter detecta más tokens con el nuevo tokenizador frente a Opus 4.6 | Misma tarifa puede implicar más coste efectivo |
| GitHub Copilot | Pasa a AI Credits desde el 1 de junio de 2026 | Uso basado en tokens de entrada, salida y caché | La IA de desarrollo se acerca a un modelo FinOps |
| Modelos con caché | Descuentos relevantes en contexto repetido | Reducen coste si se diseña bien el flujo | La arquitectura importa tanto como el modelo |
La conclusión es incómoda para los departamentos financieros. El coste de la IA no se puede presupuestar como una licencia SaaS clásica si el uso real se comporta como infraestructura variable. Cada agente que itera, cada sesión larga y cada flujo con contexto amplio añade consumo. Y si el sistema se usa más porque funciona mejor, el gasto total puede subir aunque el coste unitario parezca razonable.
La subida invisible: tokenizadores, razonamiento y agentes
El coste de la IA puede subir de varias maneras. La más obvia es una tarifa más alta por millón de tokens. Pero hay mecanismos menos visibles. Uno de ellos es el tokenizador. OpenRouter analizó Claude Opus 4.7 y concluyó que, para prompts de producción de más de 10.000 tokens, el nuevo tokenizador genera entre un 32 % y un 34 % más de tokens nativos que Claude Opus 4.6 para textos equivalentes; en prompts más pequeños, la inflación medida fue del 42 % al 45 %.
Eso significa que una tarifa igual puede producir una factura mayor. No porque el proveedor suba oficialmente el precio, sino porque el mismo texto se convierte en más unidades facturables. Para empresas que procesan contratos, bases de conocimiento, repositorios de código o documentación técnica, esta diferencia puede ser relevante.
El segundo mecanismo es el razonamiento. Muchos modelos actuales generan más pasos internos o consumen más tokens para resolver problemas complejos. En algunos casos, eso mejora la calidad. En otros, simplemente encarece tareas que antes eran más directas. El usuario final no siempre ve todos esos tokens, pero la factura sí los refleja si el proveedor los incluye en el coste.
El tercer mecanismo son los agentes. Un chatbot responde a una petición. Un agente planifica, consulta herramientas, revisa archivos, ejecuta comandos, interpreta errores, corrige y vuelve a intentarlo. Esa arquitectura puede ser mucho más útil, pero también transforma la IA en una carga de trabajo persistente. La pregunta ya no es cuánto cuesta una consulta, sino cuánto cuesta cerrar una tarea.
GitHub Copilot marca el camino del software de IA
El cambio de GitHub Copilot es una señal de mercado. GitHub ha anunciado que todos los planes de Copilot pasarán el 1 de junio de 2026 a facturación basada en uso mediante GitHub AI Credits. El consumo se calculará con tokens de entrada, salida y caché, y cada AI Credit equivale a 0,01 dólares.
Este movimiento importa porque Copilot ya no es solo autocompletado. La plataforma se está desplazando hacia revisión de código, agentes, tareas largas, automatización y flujos que pueden recorrer repositorios completos. En ese contexto, una tarifa plana pura se vuelve difícil de sostener. El proveedor quiere trasladar parte del coste variable al cliente; el cliente necesita herramientas para controlar gasto, presupuestos y límites por equipo.
Aquí aparece una disciplina que muchas compañías todavía no han incorporado: FinOps para IA. Igual que el cloud obligó a medir máquinas virtuales, almacenamiento, tráfico y bases de datos, la IA obliga a medir tokens, caché, salida, llamadas a herramientas, modelos usados y coste por tarea resuelta.
| Pregunta de CFO | Por qué importa |
|---|---|
| ¿Qué equipos consumen más tokens? | Permite distinguir adopción productiva de gasto descontrolado |
| ¿Qué tareas justifican modelos frontier? | Evita usar modelos caros para trabajo rutinario |
| ¿Cuánto cuesta una tarea completada? | Es una métrica más útil que el coste por millón de tokens |
| ¿Qué parte del contexto puede cachearse? | Reduce gasto en flujos repetitivos |
| ¿Qué modelos más pequeños son suficientes? | Mejora margen sin renunciar a productividad |
| ¿Qué límites debe tener cada agente? | Evita bucles, reintentos y consumo no supervisado |
El marketing de la IA se queda corto para compras empresariales
Los proveedores seguirán compitiendo con titulares de velocidad, benchmarks, ventanas de contexto y precio por token. Pero las empresas van a necesitar otra capa de análisis. Un modelo puede ser barato por millón de tokens y caro por tarea. Otro puede parecer caro, pero resolver antes, con menos iteraciones y menos supervisión humana. La comparación correcta no es solo técnica; es económica.
Esto también afecta a la arquitectura. Las organizaciones que envíen todo a modelos de frontera pagarán más de lo necesario. Las que usen siempre modelos baratos pueden sacrificar calidad. La respuesta más probable será una mezcla: modelos potentes para tareas críticas, modelos ligeros para clasificación o extracción, caché para contexto repetido, inferencia local cuando tenga sentido y reglas claras para agentes.
El gasto de inferencia se va a convertir en una partida relevante en la agenda de CIOs y CFOs. No porque la IA sea un fracaso, sino porque empieza a usarse de verdad. Cuando una tecnología pasa de demo a producción, deja de medirse por promesas y empieza a medirse por coste, retorno, control y previsibilidad.
La narrativa de la abundancia sigue siendo atractiva, pero la economía de la IA tiene más fricción de la que parecía. Los modelos son mejores, sí. También son más intensivos, más agénticos y más difíciles de presupuestar. El siguiente salto no será solo construir modelos más inteligentes. Será construir sistemas que sepan cuándo merece la pena usarlos.
Preguntas frecuentes
¿Por qué el precio por token no refleja siempre el coste real de la IA?
Porque el coste final depende también del número de tokens usados, la longitud del contexto, los turnos necesarios, el razonamiento interno, la caché y las herramientas que usa el agente.
¿Qué ha pasado con Gemini 3.5 Flash?
Artificial Analysis estima que ejecutar su benchmark completo con Gemini 3.5 Flash cuesta 5,5 veces más que con Gemini 3 Flash, pese a que se presenta como un modelo rápido y eficiente.
¿Puede subir el coste aunque el proveedor no cambie la tarifa?
Sí. Puede ocurrir si cambia el tokenizador, si el modelo necesita más tokens para la misma tarea o si las aplicaciones usan más iteraciones y contexto.
¿Qué deberían hacer las empresas?
Medir el coste por tarea, no solo por token. También conviene usar modelos distintos según el caso, aplicar caché, fijar presupuestos, limitar agentes y revisar el retorno de cada flujo de IA.












