China convierte los tokens de IA en una guerra de precios global

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

China está llevando la competencia de la Inteligencia Artificial a un terreno incómodo para Silicon Valley: el precio real de usar modelos a gran escala. La reciente campaña promocional del National Supercomputing Internet, con paquetes de tokens muy baratos, créditos gratuitos y descuentos en servicios como OCR, muestra que la batalla ya no se libra solo en benchmarks, ventanas de contexto o demostraciones espectaculares. También se juega en la ocupación de la capacidad de cómputo.

El movimiento tiene una lectura doble. Por un lado, China quiere hacer que la capacidad de cómputo sea una infraestructura accesible, casi comparable a una tarifa de datos móvil. Por otro, los descuentos agresivos sugieren que parte de la infraestructura desplegada necesita más demanda empresarial para alcanzar niveles de uso sostenibles. En la industria de la IA, tener centros de datos, supernodos o clústeres no basta: hay que llenarlos con inferencia, agentes, entrenamiento, OCR, simulación, programación asistida y cargas reales de clientes.

La presión llega en un momento delicado para el mercado global. Las empresas han descubierto que usar IA generativa en producción no cuesta lo mismo que probar un chatbot. Un agente que consulta documentos, llama APIs, razona durante varios pasos y genera código puede consumir millones de tokens en poco tiempo. Por eso muchas organizaciones están adoptando una estrategia cada vez más pragmática: usar modelos baratos para tareas repetitivas y reservar los modelos premium para trabajos complejos.

China empaqueta la IA como si fueran datos móviles

El National Supercomputing Internet es una pieza importante dentro de la estrategia china para convertir la capacidad de cómputo en infraestructura nacional. La idea es conectar centros de supercomputación e inteligencia artificial repartidos por el país y vender acceso a esa capacidad de forma más sencilla para empresas, universidades, desarrolladores y administraciones.

La campaña 618 va en esa dirección. Según medios chinos, el plan promocional incluye una suscripción desde 9,9 yuanes al mes, hasta 80 millones de tokens, tokens gratuitos para nuevos usuarios, OCR desde 0,01 yuanes por llamada y recompensas de capacidad de cómputo por invitar a otros usuarios. No es solo una oferta comercial. Es una señal de cómo China quiere industrializar el consumo de tokens.

Oferta o servicio	Qué revela del mercado chino
Planes desde 9,9 yuanes al mes	La IA empieza a venderse como servicio de consumo masivo
Hasta 80 millones de tokens	Presión para aumentar uso y volumen
Tokens gratuitos para nuevos usuarios	Captación agresiva de desarrolladores y pymes
OCR desde 0,01 yuanes por llamada	Commoditización de tareas de IA básicas
Recompensas en capacidad de cómputo	Incentivos para llenar infraestructura disponible
Integración de varios modelos	Estrategia multimodelo y facturación unificada

El paralelismo con las telecomunicaciones es evidente. China Telecom y China Mobile han empezado a ofrecer paquetes de tokens como si fueran paquetes de datos. La lógica es sencilla: si la IA se convierte en una utilidad diaria, el usuario no comprará “un modelo”, sino capacidad para resolver tareas. Los tokens pasan a ser una unidad comercial comprensible, medible y empaquetable.

El dato de fondo es contundente. La Administración Nacional de Datos de China señaló que en marzo de 2026 el país superó los 140 billones de llamadas diarias de tokens, más de 1.000 veces el nivel de principios de 2024. Esa cifra explica el interés por convertir la capacidad de cómputo en una red nacional, pero también muestra el riesgo de construir más infraestructura de la que el mercado puede absorber de forma rentable.

El coste por tarea sustituye al coste por token

Durante la primera fase de la IA generativa, muchas comparativas se centraron en el precio por millón de tokens. Era una métrica sencilla y útil para comparar APIs. Pero las empresas están aprendiendo que esa cifra no cuenta toda la historia.

Un modelo barato puede necesitar más pasos, más contexto, más reintentos o más supervisión humana. Un modelo caro puede resolver una tarea compleja con menos iteraciones y menos errores. Por eso el debate se está desplazando hacia el coste por tarea: cuánto cuesta completar un trabajo de principio a fin con una calidad aceptable.

Métrica	Limitación
Precio por millón de tokens	No mide calidad ni número de intentos
Coste por consulta	Ignora tareas largas o agentes multietapa
Coste por tarea	Mide mejor el resultado final
Coste total de propiedad	Incluye infraestructura, integración, control y supervisión
Productividad obtenida	Conecta gasto con valor de negocio

La diferencia es importante. Para resumir textos, clasificar documentos, extraer campos, generar borradores sencillos o hacer OCR, un modelo barato puede ser suficiente. Para programar sistemas complejos, razonar sobre bases de código grandes, analizar contratos, investigar incidentes de seguridad o tomar decisiones reguladas, el modelo premium puede seguir teniendo sentido.

Ahí aparece la arquitectura que muchas empresas están adoptando: routers de modelos. La aplicación no llama siempre al mismo modelo. Evalúa la tarea, el riesgo, la urgencia y el presupuesto. Después decide si usa un modelo económico, uno open source autoalojado, un modelo chino barato o un modelo frontera como GPT, Claude o Gemini.

Los modelos chinos presionan a los proveedores premium

DeepSeek, Alibaba Qwen, Baidu, Tencent, Zhipu, Moonshot y otros actores chinos están empujando el mercado hacia precios más bajos. Algunos lo hacen con APIs agresivas; otros, con modelos abiertos que pueden desplegarse en infraestructura propia. El efecto combinado es claro: el cliente empresarial empieza a preguntarse por qué debe pagar siempre tarifas premium si una parte de sus flujos puede resolverse con modelos más económicos.

Alibaba Cloud publica precios de Qwen que sitúan determinados modelos en rangos muy competitivos frente a los grandes proveedores occidentales. DeepSeek también ha usado descuentos intensos en su API para modelos avanzados. A la vez, el ecosistema chino ofrece cada vez más herramientas compatibles con formatos de API conocidos, lo que facilita probar alternativas sin rehacer por completo las aplicaciones.

Tipo de proveedor	Ventaja principal	Riesgo o limitación
Modelos frontera occidentales	Mejor rendimiento en tareas complejas	Precio alto y dependencia de proveedor
Modelos chinos cerrados	Precio agresivo y adopción rápida	Riesgo geopolítico y dudas de cumplimiento
Modelos open source	Control y despliegue propio	Coste de operación y mantenimiento
Modelos pequeños especializados	Eficiencia en tareas concretas	Menor flexibilidad general
Arquitectura multimodelo	Optimización de coste y calidad	Más complejidad de orquestación

Para OpenAI, Anthropic y Google, el problema no es que todos los clientes vayan a abandonar sus modelos. El problema es que dejen de usarlos para todo. Si una empresa reduce el uso de modelos premium a los casos realmente difíciles, el volumen de tokens de alto margen puede bajar, aunque la marca siga siendo fuerte.

Esto obliga a los grandes proveedores a justificar el precio con algo más que inteligencia bruta. Necesitan mejor eficiencia por tarea, mejores garantías empresariales, seguridad, cumplimiento, privacidad, herramientas de desarrollo, observabilidad, memoria, agentes, integración con datos corporativos y acuerdos de nivel de servicio.

La capacidad de cómputo necesita ocupación

La otra cara de la bajada de precios está en la infraestructura. China ha invertido mucho en centros de datos, redes de cómputo, chips nacionales y plataformas de supercomputación. Parte de esa inversión responde a una necesidad estratégica: reducir dependencia de NVIDIA y de proveedores estadounidenses. Pero construir capacidad no garantiza demanda rentable.

Un centro de IA con baja ocupación es un problema financiero y energético. Los servidores consumen capital, espacio, mantenimiento, refrigeración y electricidad. Si no hay suficientes cargas de trabajo, los descuentos se convierten en una herramienta para atraer usuarios y convertir capacidad ociosa en actividad.

Señal de mercado	Interpretación posible
Tokens gratuitos	Captar usuarios y generar hábito
Planes muy baratos	Aumentar volumen de consumo
OCR a precio mínimo	Llenar capacidad con tareas masivas
Paquetes de operadores	Normalizar el token como producto
Red nacional de cómputo	Redistribuir capacidad entre regiones
Modelos múltiples en una plataforma	Evitar capacidad fragmentada

La situación no es exclusiva de China. En Estados Unidos también hay preocupación por la eficiencia del gasto en IA, la ocupación de GPUs y el retorno real de gigantescas inversiones en centros de datos. La diferencia es que China está intentando convertir el cómputo en una infraestructura coordinada a escala nacional, mientras el modelo estadounidense depende más de grandes compañías privadas y acuerdos bilaterales con clientes.

El resultado puede ser una presión de precios sostenida. Si una parte de la capacidad china necesita ocupación y puede ofrecer tokens baratos, los proveedores globales tendrán que responder, al menos en los segmentos más básicos.

La IA empresarial entra en modo FinOps

Para los CIO y CTO, el mensaje es práctico. La IA ya no puede gestionarse como una partida experimental sin control. Hace falta FinOps aplicado a modelos: medir consumo por equipo, tarea, agente, aplicación, proveedor y resultado.

Las empresas deberán saber qué modelos se usan, para qué tareas, con qué coste, con qué calidad y con qué riesgo. También necesitarán políticas para evitar que un agente use un modelo caro cuando uno barato sería suficiente, o que un modelo barato procese datos sensibles sin garantías adecuadas.

Práctica recomendada	Objetivo
Router de modelos	Elegir el modelo adecuado por tarea
Presupuesto por agente	Evitar costes inesperados
Evaluación por coste por tarea	Medir valor real, no solo tokens
Caching de contexto	Reducir llamadas repetidas
Modelos pequeños especializados	Ahorrar en tareas predecibles
Observabilidad de prompts	Detectar desperdicio y errores
Política de datos	Separar tareas sensibles y no sensibles

La gobernanza también será importante. Un modelo chino barato puede ser atractivo para procesar contenido público, traducciones internas o prototipos. Pero quizá no sea aceptable para datos regulados, propiedad intelectual sensible o información de clientes europeos. El ahorro no puede evaluarse sin mirar cumplimiento, residencia de datos, contratos y trazabilidad.

La decisión no será ideológica, sino operacional. Algunas tareas irán a modelos baratos. Otras, a modelos premium. Otras, a modelos autoalojados. La arquitectura ganadora será la que combine coste, rendimiento y control.

El precio bajo no siempre gana

La guerra de precios no significa que los modelos frontera pierdan valor. En tareas complejas, un modelo más caro puede terminar siendo más barato si reduce errores, reintentos y supervisión. También puede aportar mejores capacidades de razonamiento, programación, uso de herramientas, análisis multimodal o seguimiento de instrucciones.

La clave está en evitar comparaciones simplistas. Un modelo de 0,10 dólares por millón de tokens no es necesariamente mejor negocio que uno de 5 dólares si el primero requiere diez llamadas, genera más errores o necesita revisión humana. La productividad final puede depender más de la tasa de acierto que del precio unitario.

Tarea	Modelo más probable
OCR masivo	Modelo barato o servicio especializado
Clasificación simple	Modelo pequeño o económico
Resúmenes internos	Modelo medio con buen coste
Programación compleja	Modelo premium o agente especializado
Investigación jurídica	Modelo avanzado con control y auditoría
Soporte de primer nivel	Modelo económico con escalado
Decisiones reguladas	Modelo gobernado y trazable

Esta será una de las grandes tensiones de 2026 y 2027. Los directores financieros querrán reducir gasto. Los equipos técnicos querrán mantener calidad. Los proveedores intentarán defender márgenes. Y los modelos chinos, abiertos o subvencionados por capacidad abundante, seguirán presionando el precio de la inferencia.

La nueva carrera no es solo por el mejor modelo

La lectura más interesante es que el mercado de IA está pasando de una carrera por el modelo más potente a una competición por eficiencia. Ganará quien consiga resolver tareas reales con menor coste, menor latencia, mayor fiabilidad y mejor integración empresarial.

China intenta hacerlo desde la escala y el precio. Estados Unidos mantiene ventaja en modelos frontera, ecosistemas empresariales y grandes plataformas cloud. Europa observa el debate con una preocupación añadida: soberanía, cumplimiento y dependencia tecnológica.

La presión china puede beneficiar a los clientes. Más competencia suele traer precios más bajos, mejores herramientas y más opciones. Pero también puede complicar decisiones de arquitectura. Usar IA barata sin estrategia puede generar dependencia, riesgos de datos o resultados de baja calidad. Usar solo modelos premium puede hacer inviable escalar agentes en producción.

El mercado se dirige hacia una conclusión bastante clara: la IA empresarial será multimodelo. No habrá un único proveedor para todo, ni un único modelo dominante en todas las tareas. Las empresas combinarán modelos frontera, modelos chinos, modelos abiertos, modelos pequeños y servicios especializados según coste, riesgo y rendimiento.

La campaña china de tokens baratos no es una anécdota comercial. Es una señal de madurez del mercado. Cuando el cómputo se vende con descuentos, promociones y paquetes mensuales, la IA deja de ser una demostración de laboratorio y empieza a parecerse a una industria de volumen. Y en una industria de volumen, el precio pesa.

Preguntas frecuentes

¿Por qué China está bajando precios de cómputo para IA?

Porque quiere aumentar el uso de su infraestructura nacional de cómputo, atraer empresas y desarrolladores, y convertir los tokens de IA en un servicio masivo similar a los datos móviles.

¿Qué significa coste por tarea en IA?

Es el coste total de completar un trabajo de principio a fin, incluyendo tokens, reintentos, tiempo de ejecución, supervisión humana, calidad y errores. Es una métrica más útil que mirar solo el precio por millón de tokens.

¿Los modelos chinos sustituirán a ChatGPT, Claude o Gemini?

No en todos los casos. Pueden ganar mucho terreno en tareas simples o repetitivas, pero los modelos premium seguirán siendo valiosos en trabajos complejos, regulados o de alto impacto.

¿Qué deberían hacer las empresas?

Adoptar una estrategia multimodelo, medir costes por tarea, usar routers de modelos, aplicar políticas de datos y reservar los modelos más caros para casos donde realmente aporten valor.