Tokenmaxxing: cuando usar más IA empieza a salir demasiado caro

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

La inteligencia artificial ha entrado en una fase menos cómoda para las empresas: la de mirar la factura. Después de dos años en los que muchas compañías han empujado a sus empleados a usar asistentes, copilotos y agentes de IA en casi cualquier tarea, empieza a aparecer una pregunta que hasta ahora se escondía detrás del entusiasmo: ¿cuánto valor real genera cada euro gastado en tokens?

El debate ya tiene nombre: tokenmaxxing. El término se usa para describir el consumo intensivo de tokens de IA, especialmente en herramientas de programación asistida y agentes capaces de trabajar durante mucho tiempo sobre un repositorio, una tarea o un flujo interno. La idea de fondo parecía sencilla: si un desarrollador usa más IA, producirá más. El problema es que los primeros datos empresariales sugieren algo bastante más incómodo: más tokens no siempre significan más productividad proporcional.

El coste invisible de los agentes de IA

Un token es la unidad básica con la que muchos modelos de lenguaje procesan texto, código, contexto e instrucciones. Cada vez que un usuario pide a una IA que lea una base de código, revise documentación, genere pruebas, analice errores o ejecute una tarea agéntica, el sistema consume tokens de entrada y de salida. En una conversación breve el coste puede parecer pequeño. En un agente que trabaja durante horas, revisa cientos de archivos y lanza varias iteraciones, la factura cambia de escala.

Ahí está el núcleo del problema. La IA agéntica no se parece a un chatbot clásico que responde una pregunta y termina. Puede planificar, consultar herramientas, leer contexto, corregirse, volver a intentarlo y mantener sesiones largas. Esa capacidad es justamente lo que la hace atractiva para empresas y desarrolladores, pero también lo que dispara el consumo.

El informe de Jellyfish sobre tokenmaxxing puso cifras a esta tensión. La compañía analizó el uso de herramientas de IA en equipos de ingeniería y observó que los desarrolladores con más consumo de tokens podían producir más, pero a un coste por unidad de trabajo mucho mayor. En una comparación citada por DevOps Digest, los desarrolladores del 20 % con menor gasto en tokens consumieron unos 3 dólares durante el primer trimestre de 2026 y entregaron una media de 11 pull requests fusionadas; en el extremo alto, el 20 % de mayor consumo gastó 1.822 dólares y entregó 23 pull requests. El coste por pull request pasó de 0,28 dólares a 89,32 dólares.

Esa diferencia no significa que la IA no funcione. Significa que usarla sin control puede ser una mala métrica. El consumo bruto de tokens mide actividad, no impacto. Una empresa puede estar generando millones de tokens y, aun así, no estar entregando mejores productos, reduciendo deuda técnica o acelerando lanzamientos de forma sostenible.

Métrica citada en el análisis de Jellyfish	Menor consumo de tokens	Mayor consumo de tokens
Gasto aproximado en tokens en el trimestre	3 dólares	1.822 dólares
Pull requests fusionadas de media	11	23
Coste por pull request	0,28 dólares	89,32 dólares

Uber, Microsoft, Visa y Google ya miran la factura

El debate dejó de ser teórico cuando empezaron a aparecer ejemplos en grandes empresas. Business Insider ha recogido las declaraciones de Andrew Macdonald, director de operaciones de Uber, que expresó dudas sobre la relación directa entre gastar más en IA y entregar mejores funcionalidades para los usuarios. Según esa información, Uber habría superado su presupuesto de 2026 para Claude Code en apenas unos meses, lo que abrió una discusión interna sobre costes y retorno.

Axios también ha señalado que grandes compañías están revisando sus gastos de IA ante la dificultad de demostrar retornos claros. En ese contexto, Microsoft habría reducido licencias de Claude Code por motivos de coste, mientras Uber reconocía que el gasto creciente en IA era cada vez más difícil de justificar.

El caso de Visa muestra el otro lado de la adopción masiva. Business Insider publicó que la compañía estaba consumiendo cerca de 2 billones de tokens de IA al mes y que incluso premiaba a empleados que lograban construir más rápido con estas herramientas. La cifra muestra hasta qué punto el uso corporativo de la IA está dejando de ser una prueba limitada para convertirse en una partida operativa de gran volumen.

Google también ha detectado la oportunidad. Business Insider informó de que Sundar Pichai presentó el argumento del coste como una ventaja competitiva para Google, al defender modelos más rápidos y baratos como Gemini Flash para empresas que necesitan reducir su gasto en tokens. La competición ya no va solo de quién tiene el modelo más capaz, sino de quién puede ofrecer suficiente calidad con mejor coste por tarea.

El movimiento de Amazon va en la misma línea. Según Business Insider, la compañía llegó a cerrar una clasificación interna informal de consumo de tokens, conocida como KiroRank, después de que la dinámica empujara a empleados a usar IA por usarla. El mensaje de la dirección fue claro: la IA debe resolver problemas concretos de cliente o de negocio, no convertirse en una carrera por quemar más tokens.

La productividad no se mide por el humo que sale de la máquina

El tokenmaxxing revela un problema de medición. Durante la primera ola de adopción de IA, muchas empresas se conformaron con métricas de uso: cuántos empleados usan la herramienta, cuántas consultas hacen, cuántos tokens consumen, cuántas líneas de código se generan. Son datos fáciles de obtener y quedan bien en una presentación interna. Pero no responden a la pregunta principal: si el negocio mejora.

En ingeniería de software, medir solo líneas de código o número de pull requests puede ser engañoso. Un equipo puede producir más cambios y, al mismo tiempo, generar más revisiones, más deuda técnica, más errores o más trabajo de supervisión. La IA puede acelerar la escritura de código, pero también desplaza carga hacia la revisión, la validación, la corrección y el mantenimiento.

Un estudio académico reciente sobre consumo de tokens en tareas de programación agéntica señala que estos agentes pueden consumir hasta 1.000 veces más tokens que tareas más simples de razonamiento o conversación sobre código. El trabajo también observa una gran variabilidad: la misma tarea puede requerir hasta 30 veces más tokens en ejecuciones diferentes, y más consumo no siempre se traduce en más precisión.

Otro estudio longitudinal sobre asistentes de programación apunta a una transformación del trabajo del desarrollador. Los ingenieros dicen dedicar menos tiempo a escribir código, pero más a dirigir, evaluar y corregir resultados generados por IA. Los autores hablan de “supervisory engineering work”, una nueva capa de trabajo centrada en controlar lo que produce el asistente.

Esto explica por qué muchas empresas están pasando del entusiasmo inicial al análisis financiero. La IA puede mejorar el rendimiento, pero solo si se integra bien en el flujo de trabajo. Si se usa para producir más material que luego hay que revisar, depurar o rehacer, el ahorro se diluye.

El problema no es usar IA, sino usarla sin gobierno

El riesgo ahora sería sacar una conclusión equivocada y frenar la adopción de IA de forma indiscriminada. El problema no es que los empleados usen asistentes ni que los desarrolladores trabajen con agentes de código. El problema es premiar el consumo sin medir resultados. En tecnología, confundir actividad con productividad siempre ha sido peligroso; con IA, además, puede salir muy caro.

Las empresas necesitan pasar de “más IA para todos” a una estrategia de FinOps para inteligencia artificial. Eso implica medir coste por tarea, coste por pull request útil, coste por incidencia resuelta, coste por documento analizado, ahorro de tiempo real, calidad del resultado y carga adicional de revisión. También exige separar usos de alto valor de usos meramente experimentales.

No todos los trabajos requieren el modelo más caro ni el máximo nivel de razonamiento. Algunas tareas pueden resolverse con modelos más baratos, respuestas más cortas, contexto reducido o herramientas especializadas. Otras sí justificarán modelos de frontera y sesiones largas, especialmente cuando el impacto económico sea claro. La clave está en elegir bien.

El tokenmaxxing puede ser el primer síntoma de madurez del mercado. La IA ya no vive solo en demostraciones espectaculares ni en promesas de productividad futura. Empieza a entrar en presupuestos, centros de coste, cuadros de mando y discusiones de dirección. Y ahí las reglas son distintas: no basta con que una herramienta parezca impresionante; debe demostrar que mejora el resultado más de lo que aumenta la factura.

La burbuja de expectativas no tiene por qué pinchar de golpe. Puede desinflarse en forma de control presupuestario, modelos más eficientes, límites de uso, métricas más serias y una selección más cuidadosa de casos de uso. Lo que sí parece claro es que la época de quemar tokens como si fueran gratis empieza a terminar.

Preguntas frecuentes

¿Qué es el tokenmaxxing?
Es el uso intensivo de tokens de IA, normalmente con la idea de que consumir más recursos del modelo generará más productividad. El problema es que el retorno no siempre crece al mismo ritmo que el coste.

¿Por qué los tokens pueden disparar el gasto en IA?
Porque muchas herramientas cobran por volumen de tokens procesados. Los agentes de IA consumen mucho contexto, leen archivos, iteran varias veces y pueden trabajar durante sesiones largas.

¿Usar más IA significa producir más?
No necesariamente. Algunos datos muestran más producción bruta, pero con un coste por unidad de trabajo mucho mayor y más necesidad de revisión humana.

¿Qué deberían medir las empresas?
Más que tokens consumidos, deberían medir resultados: funcionalidades entregadas, pull requests útiles, incidencias resueltas, tiempo ahorrado, calidad del código, ahorro real y coste por tarea completada.

Fuentes:

Jellyfish, análisis sobre tokenmaxxing y coste de uso de IA en equipos de ingeniería.
DevOps Digest, “10 Key Takeaways on AI and Tokenmaxxing from the AI Engineering Trends Report”.
Business Insider, cobertura sobre Uber, Visa, Google y tokenmaxxing.
Axios, “AI sticker shock hits corporate America”.
arXiv, “How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks”.
arXiv, “The Impact of AI Coding Assistants on Software Engineering: A Longitudinal Study”.