La factura oculta de la IA: el token barato ya no será suficiente

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

La primera etapa de la inteligencia artificial generativa se vendió con una idea muy cómoda para las empresas: probar era barato. Un chatbot interno, un asistente para soporte, un copiloto para programadores o una herramienta de análisis documental podían desplegarse con APIs, sin comprar infraestructura y con costes por token que parecían asumibles. El problema es que muchas organizaciones confundieron el precio de entrada con el coste real de operar IA a escala.

Ahora empieza la segunda fase. Los modelos son mejores, los agentes hacen más cosas, los contextos son más largos y el uso por empleado crece sin demasiada fricción. La consecuencia es sencilla: aunque la productividad pueda mejorar, la factura de inferencia empieza a convertirse en una partida seria. Y muchas empresas aún no tienen a nadie mirando ese contador con la misma disciplina con la que miran el cloud, las licencias SaaS o los costes de infraestructura.

OpenAI muestra el cambio de ciclo en ocho meses

El caso de OpenAI resume bien el movimiento. GPT-5 salió para desarrolladores con un precio de 1,25 dólares por millón de tokens de entrada y 10 dólares por millón de tokens de salida. La propia OpenAI lo presentó como disponible en API, Chat Completions y Codex CLI, con opciones de ahorro como prompt caching y Batch API.

La foto cambió con GPT-5.4 y GPT-5.5. La página oficial de precios de OpenAI sitúa GPT-5.4 en 2,50 dólares por millón de tokens de entrada y 15 dólares por millón de salida, mientras que GPT-5.5 sube a 5 dólares de entrada y 30 dólares de salida. En GPT-5.5 Pro, OpenAI anunció 30 dólares por millón de tokens de entrada y 180 dólares por millón de salida. También ofrece Batch y Flex a la mitad del precio estándar, y Priority a 2,5 veces el precio.

CloudZero resume la evolución de forma directa: GPT-5 en agosto de 2025 a 1,25 dólares por millón de entrada, GPT-5.4 en marzo de 2026 a 2,50 dólares y GPT-5.5 en abril de 2026 a 5 dólares. En ocho meses, el precio de entrada del modelo principal se multiplicó por cuatro.

Modelo de OpenAI	Precio entrada	Precio salida	Lectura
GPT-5	1,25 $ / 1M tokens	10 $ / 1M tokens	Precio de entrada agresivo
GPT-5.4	2,50 $ / 1M tokens	15 $ / 1M tokens	Doble en entrada frente a GPT-5
GPT-5.5	5 $ / 1M tokens	30 $ / 1M tokens	Cuatro veces más que GPT-5 en entrada
GPT-5.5 Pro	30 $ / 1M tokens	180 $ / 1M tokens	Gama premium para mayor precisión

OpenAI defiende que GPT-5.5 es más inteligente y más eficiente en tokens que GPT-5.4 en muchos casos, especialmente en Codex. Ese matiz importa: el precio por token no siempre equivale al coste por tarea completada. Un modelo más caro puede salir mejor si resuelve antes, falla menos o necesita menos iteraciones. Pero para saberlo hay que medir. Sin medición, el cambio de modelo puede duplicar la factura sin que el negocio entienda por qué.

Anthropic y el coste que no aparece en la tarifa

Anthropic ha seguido una estrategia distinta, pero el resultado también obliga a vigilar. Claude Opus 4.7 llegó en abril de 2026 con el mismo precio que Opus 4.6: 5 dólares por millón de tokens de entrada y 25 dólares por millón de salida. La tarifa no cambió, pero la propia documentación de Anthropic advierte de que el nuevo tokenizador puede convertir el mismo texto en entre 1 y 1,35 veces más tokens, según el tipo de contenido. Es decir, hasta un 35 % más de tokens para el mismo input.

Anthropic también explica que Opus 4.7 “piensa” más en niveles de esfuerzo altos, sobre todo en turnos posteriores de tareas agénticas. Eso puede mejorar la fiabilidad, pero también puede aumentar los tokens de salida. La compañía recomienda medir el efecto sobre tráfico real, ajustar el nivel de esfuerzo, usar presupuestos de tarea y revisar prompts.

La lectura para un CFO es incómoda. Aunque el proveedor mantenga el precio oficial, el coste real puede cambiar si el tokenizador, el razonamiento, el contexto o el patrón de uso cambian. En IA, la factura no depende solo de la tarifa. Depende de cuántos tokens genera cada tarea y de cuántas veces se repite esa tarea al día.

Además, la disponibilidad empieza a formar parte del cálculo económico. La página de estado de Claude ha recogido incidencias recientes en mayo, incluidos errores elevados en Opus 4.7 y una interrupción parcial de Claude Code en web. PYMNTS señaló a finales de abril que Claude rondaba el 98 % de uptime en los 90 días anteriores, en un contexto de mayor presión sobre la infraestructura de IA.

La IA necesita FinOps propio

El gasto en IA se parece cada vez más al cloud en sus primeros años: fácil de activar, difícil de gobernar y muy propenso a crecer antes de que finanzas tenga visibilidad. Datadog lo plantea de forma clara en su informe State of AI Engineering 2026: pasar de experimentos a producción implica gestionar flotas de modelos, tool calls, prompts largos, reintentos, límites de capacidad, orquestación y control de costes. También advierte de que cambios en modelos, prompts o recuperación de información pueden mover latencia, gasto y tasas de fallo sin un cambio evidente en el código.

Ese es el punto que muchas empresas aún no han interiorizado. La IA no se compra solo como una licencia por usuario. Se consume como una utilidad. Cada prompt, cada llamada a herramienta, cada fragmento recuperado por RAG, cada retry, cada agente que ejecuta cinco pasos más de lo previsto y cada contexto que se infla con documentación interna suma coste.

Datadog ofrece una pista de hacia dónde irá el mercado: anomalías de uso o gasto, alertas cuando el volumen de inferencia crece de forma inesperada y datos de coste visibles para equipos de ingeniería, finanzas y FinOps.

Riesgo de coste en IA	Qué lo provoca	Cómo se controla
Subida de precio por modelo	Nuevas generaciones más caras	Políticas de selección de modelo
Más tokens por el mismo texto	Tokenizadores y contextos distintos	Pruebas antes de migrar
Agentes demasiado largos	Tool calls, reintentos y bucles	Presupuestos por tarea
RAG inflado	Recuperar demasiados documentos	Context engineering y ranking
Falta de trazabilidad	Coste no asociado a equipo o proyecto	Etiquetado, chargeback y dashboards
Dependencia de un proveedor	Sin rutas alternativas	Model routing y arquitectura híbrida

La conclusión es que nacerá una disciplina más formal: AI FinOps. No bastará con que ingeniería elija el mejor modelo. Habrá que decidir qué modelo se usa para cada tarea, cuánto puede gastar un agente antes de detenerse, qué prompts se aprueban, qué contextos se cachean, cuándo compensa usar Batch, cuándo mover inferencia a infraestructura propia y cuándo pagar por un modelo frontera.

El nuevo debate: productividad frente a gasto invisible

La IA puede ahorrar tiempo. Ese punto no desaparece. Un equipo puede escribir código más rápido, revisar contratos con más agilidad, resumir documentación, responder tickets o preparar análisis financieros con menos trabajo manual. Pero el ahorro de tiempo no justifica cualquier factura si nadie mide el coste por resultado.

El debate ya no debería ser “usar IA o no usarla”. Debería ser “cuánto cuesta cada tarea resuelta”. Dos equipos pueden usar el mismo modelo y pagar facturas muy distintas. Uno puede diseñar prompts compactos, usar caché, limitar herramientas y elegir modelos pequeños para tareas simples. Otro puede mandar documentos enteros a un modelo premium, repetir llamadas, dejar agentes sin presupuesto y usar siempre la última versión por defecto.

Ahí aparece una pregunta incómoda para recursos humanos y finanzas. ¿Es más rentable un empleado senior que escribe instrucciones precisas, valida resultados y consume menos tokens, o un perfil junior que necesita más iteraciones, prompts más largos y más llamadas para alcanzar el mismo resultado? La respuesta no será igual en todos los casos, pero la pregunta empezará a hacerse.

La calidad del prompt deja de ser una habilidad blanda. Es control de costes. Un prompt mejor puede reducir vueltas, evitar salidas inútiles, limitar contexto y ahorrar millones de tokens al mes en organizaciones grandes. Lo mismo ocurre con el diseño de workflows: un buen agente no es el que hace más llamadas, sino el que resuelve con las necesarias.

El token barato fue una puerta de entrada. Permitió experimentar, formar usuarios y demostrar valor. Ahora que la IA empieza a integrarse en procesos críticos, la factura llega con otro tamaño. Las empresas que no midan consumo, coste por tarea, rendimiento por modelo y calidad de prompts terminarán gestionando la IA como muchas gestionaron el cloud al principio: con sorpresa al cierre de mes.

La pregunta ya no es si la IA será útil. La pregunta es quién mira el contador.

Preguntas frecuentes

¿Por qué sube la factura de IA si algunos modelos son más eficientes?
Porque el coste total depende del precio por token, del número de tokens usados, de la longitud del contexto, de los reintentos, de las llamadas a herramientas y del volumen de uso por empleado.

¿Qué es AI FinOps?
Es la aplicación de disciplina financiera y operativa al gasto en IA: presupuestos por equipo, medición por modelo, alertas de consumo, optimización de prompts, selección de modelos y coste por tarea resuelta.

¿Puede un modelo más caro salir más barato?
Sí, si resuelve con menos pasos, menos errores y menos tokens totales. Por eso conviene medir coste por resultado, no solo precio por millón de tokens.

¿Qué debería hacer una empresa que ya usa IA a escala?
Debe etiquetar consumos por proyecto, fijar presupuestos, revisar prompts, usar caché, probar modelos alternativos, monitorizar agentes y crear un responsable claro del gasto de inferencia.