La factura de la IA empieza a romper los presupuestos empresariales

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

La inteligencia artificial generativa ha vivido sus primeros años empresariales bajo una promesa cómoda: cada modelo sería más potente, cada herramienta más útil y cada token más barato. Esa narrativa empieza a mostrar grietas. El problema no es que las compañías no encuentren valor en la IA, sino que empiezan a descubrir cuánto cuesta cuando deja de ser un piloto controlado y pasa a funcionar todos los días, con cientos o miles de empleados, agentes autónomos y flujos de trabajo conectados a modelos avanzados.

El debate ha cobrado fuerza tras varias señales recientes. GitHub ha anunciado que Copilot pasará el 1 de junio de 2026 a un modelo basado en AI Credits, consumidos según el uso de tokens de entrada, salida y caché. La compañía mantiene los precios base de Copilot Pro, Pro+, Business y Enterprise, pero sustituye las unidades anteriores por un sistema más ligado al consumo real. Dicho de otra forma: la cuota sigue existiendo, pero el uso intensivo empieza a tener una métrica financiera más visible.

Al mismo tiempo, distintos informes del sector han apuntado a tensiones internas en grandes empresas por el coste de herramientas como Claude Code, Cursor o Codex. En el caso de Uber, AI Magazine recoge que la compañía agotó su presupuesto de IA para 2026 en apenas cuatro meses por el aumento del uso de herramientas de programación asistida, citando declaraciones atribuidas a su CTO, Praveen Neppalli Naga, y datos publicados inicialmente por The Information.

El fin de la tarifa plana sin consecuencias

Durante la primera fase de adopción, muchas empresas trataron la IA como una suscripción de software más. Se compraban licencias por usuario, se activaban copilotos y se asumía que el coste mensual sería relativamente predecible. Ese enfoque funcionaba mientras el uso era limitado: consultas ocasionales, ayuda en redacción, generación de código puntual o automatizaciones sencillas.

El problema aparece cuando la IA se convierte en una capa operativa. Un desarrollador que usa un asistente durante toda su jornada consume más que un empleado que hace diez consultas al día. Un agente que revisa pull requests, genera pruebas, analiza incidencias y reintenta tareas en bucle puede consumir mucho más que un humano. Y si varios agentes empiezan a hablar entre sí, consultar repositorios, leer documentación y ejecutar acciones, la factura deja de parecerse a una licencia SaaS tradicional.

Anthropic ya ha reconocido, de forma indirecta, que los patrones de uso han cambiado. Business Insider publicó que la compañía más que duplicó sus estimaciones públicas de coste para Claude Code: de unos 6 dólares por desarrollador y día activo a 13 dólares, con el 90 % de usuarios por debajo de 30 dólares diarios. Anthropic aseguró que no se trataba de una subida de precio, sino de una actualización de estimaciones por el cambio de uso y por el peso de modelos más avanzados en Claude Code.

La diferencia es relevante. El precio por token puede no subir, pero el coste efectivo sí puede dispararse si los modelos son más capaces, generan más uso, permiten tareas más largas o se integran en procesos que antes no existían. Es la paradoja clásica de la eficiencia: cuanto más útil y accesible se vuelve una tecnología, más se usa, y el gasto total puede crecer aunque el coste unitario baje.

Señal reciente	Qué muestra	Riesgo para empresas
GitHub Copilot pasa a AI Credits	El uso se vincula a tokens y créditos consumidos	Menor previsibilidad en equipos intensivos
Uber habría agotado su presupuesto anual de IA en cuatro meses	El éxito de adopción puede romper las previsiones	Presupuestos diseñados para pilotos, no para producción
Claude Code eleva sus estimaciones de coste por desarrollador	Los modelos más capaces cambian el patrón de consumo	Más gasto por usuario activo
OpenAI publica GPT-5.5 a 5 dólares por millón de tokens de entrada y 30 dólares por salida	Los modelos de frontera siguen siendo caros para producción masiva	Necesidad de seleccionar modelos por tarea
Dell habla de “tokenomics” y de infraestructura propia	El coste por token entra en decisiones de arquitectura	Vuelta del debate cloud, híbrido y on-premise

El token se convierte en una unidad de negocio

La gran novedad no es técnica, sino financiera. El token empieza a parecerse a lo que el gigabyte fue para el cloud: una unidad pequeña, aparentemente barata, pero capaz de generar facturas enormes cuando el uso escala. OpenAI lista GPT-5.5 con precios estándar de 5 dólares por millón de tokens de entrada, 0,50 dólares por millón en entrada cacheada y 30 dólares por millón de tokens de salida. GPT-5.4, más barato, aparece a la mitad: 2,50 dólares de entrada y 15 dólares de salida.

Anthropic muestra una estructura parecida por modelo. Claude Opus 4.7 figura a 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida, mientras que Claude Sonnet 4.6 baja a 3 dólares de entrada y 15 dólares de salida. Además, la propia documentación advierte de costes asociados a caché y de diferencias de tokenización que pueden alterar el consumo real.

Para un usuario individual, estas cifras pueden parecer manejables. Para una empresa con miles de empleados, agentes persistentes, automatizaciones, herramientas de desarrollo y procesos conectados a modelos de frontera, el cálculo cambia. La pregunta deja de ser cuánto cuesta una licencia y pasa a ser cuánto valor genera cada millón de tokens consumidos.

Esa es la razón por la que empieza a hablarse de FinOps para IA. No basta con medir gasto cloud, máquinas virtuales o almacenamiento. Las empresas necesitan saber qué equipo consume tokens, con qué modelo, para qué tarea, con qué resultado y con qué retorno. Sin esa trazabilidad, la inteligencia artificial puede convertirse en un agujero presupuestario muy difícil de defender ante dirección financiera.

Los agentes agravan el problema

El coste de la IA generativa ya era importante con chatbots y asistentes. Los agentes lo multiplican porque trabajan de forma continua y con menor intervención humana. Un agente no hace una pregunta y se detiene. Puede dividir una tarea, consultar documentación, generar código, ejecutar pruebas, leer errores, volver a intentarlo y pedir ayuda a otro modelo. Cada paso suma tokens.

Un caso extremo ayuda a dimensionar el problema. Tom’s Hardware publicó que Peter Steinberger, desarrollador vinculado a OpenClaw y empleado de OpenAI, mostró un gasto de más de 1,3 millones de dólares en tokens de OpenAI durante 30 días, con 603.000 millones de tokens y 7,6 millones de peticiones generadas por unas 100 instancias de Codex. El propio artículo matiza que se trataba de un caso de investigación con costes cubiertos por OpenAI y que el uso de “Fast Mode” elevaba el gasto.

No es un ejemplo representativo de una empresa normal, pero sí ilustra hacia dónde puede ir el consumo cuando se eliminan las barreras. La programación asistida por IA, los agentes de soporte, la generación de documentación, el análisis de datos y la automatización de operaciones pueden aportar productividad, pero también crear un nuevo tipo de coste variable que las áreas financieras no siempre están preparadas para modelizar.

Aquí aparece una tensión estratégica. Si las empresas limitan el uso para controlar el gasto, pueden frenar la adopción y reducir los retornos esperados. Si lo abren demasiado, la factura puede crecer más rápido que el beneficio medible. Y si los proveedores mantienen precios altos para sostener sus propias inversiones en centros de datos, GPUs y energía, la presión se trasladará al cliente final.

Vuelve el debate sobre infraestructura propia

El aumento del coste variable está reabriendo una conversación que parecía resuelta por el cloud público: qué cargas deben ejecutarse en servicios externos y cuáles pueden tener sentido en infraestructura propia, cloud privado o entornos híbridos. ITPro recogió en Dell Technologies World 2026 que varios directivos de Dell defendieron el hardware on-premise para agentes de IA como una forma de obtener costes más previsibles, aunque el medio también matiza que Dell tiene un interés comercial evidente en ese mensaje.

Aun así, el argumento no es absurdo. Para experimentación, el API público ofrece velocidad, elasticidad y acceso inmediato a los mejores modelos. Para cargas constantes, repetitivas, sensibles o de alto volumen, una arquitectura híbrida puede resultar más racional: modelos de frontera para tareas complejas, modelos más pequeños para trabajo rutinario, caché intensiva, límites de gasto, observabilidad y, en algunos casos, inferencia en infraestructura propia.

La próxima fase de la IA empresarial no se decidirá solo por quién tiene el modelo más potente. También importará quién ofrece mejor control de costes, mejor trazabilidad, mejores límites de consumo y más opciones de despliegue. Las empresas no van a abandonar la IA porque sea cara, pero sí empezarán a exigir que cada caso de uso justifique su factura.

La era de los subsidios ilimitados se está estrechando. Los proveedores necesitan convertir adopción en ingresos sostenibles y los clientes necesitan transformar entusiasmo en productividad medible. Entre ambos aparece una realidad incómoda: los tokens no son gratis, los agentes no duermen y la factura de la IA ya ha llegado al comité de dirección.

Preguntas frecuentes

¿Por qué están subiendo los costes de la IA en empresas?
Porque el uso ha pasado de consultas puntuales a flujos continuos, herramientas de desarrollo, automatizaciones y agentes que consumen muchos más tokens.

¿Qué cambia con la facturación por tokens?
El coste se vincula al uso real del modelo: entrada, salida, contexto, caché y, en algunos casos, velocidad o prioridad. Eso hace que el gasto sea más variable.

¿La tarifa plana de IA desaparece?
No del todo. Muchos proveedores mantienen cuotas base, pero cada vez añaden créditos, límites, consumos medidos o cargos adicionales para usos intensivos.

¿Tiene sentido ejecutar IA en infraestructura propia?
Puede tenerlo para cargas constantes, sensibles o de gran volumen. El cloud público sigue siendo útil para experimentar y acceder a modelos avanzados, pero no siempre ofrece el coste más predecible.