China está llevando la competencia de la Inteligencia Artificial a un terreno incómodo para Silicon Valley: el precio real de usar modelos a gran escala. La reciente campaña promocional del National Supercomputing Internet, con paquetes de tokens muy baratos, créditos gratuitos y descuentos en servicios como OCR, muestra que la batalla ya no se libra solo en benchmarks, ventanas de contexto o demostraciones espectaculares. También se juega en la ocupación de la capacidad de cómputo.
El movimiento tiene una lectura doble. Por un lado, China quiere hacer que la capacidad de cómputo sea una infraestructura accesible, casi comparable a una tarifa de datos móvil. Por otro, los descuentos agresivos sugieren que parte de la infraestructura desplegada necesita más demanda empresarial para alcanzar niveles de uso sostenibles. En la industria de la IA, tener centros de datos, supernodos o clústeres no basta: hay que llenarlos con inferencia, agentes, entrenamiento, OCR, simulación, programación asistida y cargas reales de clientes.
La presión llega en un momento delicado para el mercado global. Las empresas han descubierto que usar IA generativa en producción no cuesta lo mismo que probar un chatbot. Un agente que consulta documentos, llama APIs, razona durante varios pasos y genera código puede consumir millones de tokens en poco tiempo. Por eso muchas organizaciones están adoptando una estrategia cada vez más pragmática: usar modelos baratos para tareas repetitivas y reservar los modelos premium para trabajos complejos.
China empaqueta la IA como si fueran datos móviles
El National Supercomputing Internet es una pieza importante dentro de la estrategia china para convertir la capacidad de cómputo en infraestructura nacional. La idea es conectar centros de supercomputación e inteligencia artificial repartidos por el país y vender acceso a esa capacidad de forma más sencilla para empresas, universidades, desarrolladores y administraciones.
La campaña 618 va en esa dirección. Según medios chinos, el plan promocional incluye una suscripción desde 9,9 yuanes al mes, hasta 80 millones de tokens, tokens gratuitos para nuevos usuarios, OCR desde 0,01 yuanes por llamada y recompensas de capacidad de cómputo por invitar a otros usuarios. No es solo una oferta comercial. Es una señal de cómo China quiere industrializar el consumo de tokens.
| Oferta o servicio | Qué revela del mercado chino |
|---|---|
| Planes desde 9,9 yuanes al mes | La IA empieza a venderse como servicio de consumo masivo |
| Hasta 80 millones de tokens | Presión para aumentar uso y volumen |
| Tokens gratuitos para nuevos usuarios | Captación agresiva de desarrolladores y pymes |
| OCR desde 0,01 yuanes por llamada | Commoditización de tareas de IA básicas |
| Recompensas en capacidad de cómputo | Incentivos para llenar infraestructura disponible |
| Integración de varios modelos | Estrategia multimodelo y facturación unificada |
El paralelismo con las telecomunicaciones es evidente. China Telecom y China Mobile han empezado a ofrecer paquetes de tokens como si fueran paquetes de datos. La lógica es sencilla: si la IA se convierte en una utilidad diaria, el usuario no comprará “un modelo”, sino capacidad para resolver tareas. Los tokens pasan a ser una unidad comercial comprensible, medible y empaquetable.
El dato de fondo es contundente. La Administración Nacional de Datos de China señaló que en marzo de 2026 el país superó los 140 billones de llamadas diarias de tokens, más de 1.000 veces el nivel de principios de 2024. Esa cifra explica el interés por convertir la capacidad de cómputo en una red nacional, pero también muestra el riesgo de construir más infraestructura de la que el mercado puede absorber de forma rentable.
El coste por tarea sustituye al coste por token
Durante la primera fase de la IA generativa, muchas comparativas se centraron en el precio por millón de tokens. Era una métrica sencilla y útil para comparar APIs. Pero las empresas están aprendiendo que esa cifra no cuenta toda la historia.
Un modelo barato puede necesitar más pasos, más contexto, más reintentos o más supervisión humana. Un modelo caro puede resolver una tarea compleja con menos iteraciones y menos errores. Por eso el debate se está desplazando hacia el coste por tarea: cuánto cuesta completar un trabajo de principio a fin con una calidad aceptable.
| Métrica | Limitación |
| Precio por millón de tokens | No mide calidad ni número de intentos |
| Coste por consulta | Ignora tareas largas o agentes multietapa |
| Coste por tarea | Mide mejor el resultado final |
| Coste total de propiedad | Incluye infraestructura, integración, control y supervisión |
| Productividad obtenida | Conecta gasto con valor de negocio |
La diferencia es importante. Para resumir textos, clasificar documentos, extraer campos, generar borradores sencillos o hacer OCR, un modelo barato puede ser suficiente. Para programar sistemas complejos, razonar sobre bases de código grandes, analizar contratos, investigar incidentes de seguridad o tomar decisiones reguladas, el modelo premium puede seguir teniendo sentido.
Ahí aparece la arquitectura que muchas empresas están adoptando: routers de modelos. La aplicación no llama siempre al mismo modelo. Evalúa la tarea, el riesgo, la urgencia y el presupuesto. Después decide si usa un modelo económico, uno open source autoalojado, un modelo chino barato o un modelo frontera como GPT, Claude o Gemini.
Los modelos chinos presionan a los proveedores premium
DeepSeek, Alibaba Qwen, Baidu, Tencent, Zhipu, Moonshot y otros actores chinos están empujando el mercado hacia precios más bajos. Algunos lo hacen con APIs agresivas; otros, con modelos abiertos que pueden desplegarse en infraestructura propia. El efecto combinado es claro: el cliente empresarial empieza a preguntarse por qué debe pagar siempre tarifas premium si una parte de sus flujos puede resolverse con modelos más económicos.
Alibaba Cloud publica precios de Qwen que sitúan determinados modelos en rangos muy competitivos frente a los grandes proveedores occidentales. DeepSeek también ha usado descuentos intensos en su API para modelos avanzados. A la vez, el ecosistema chino ofrece cada vez más herramientas compatibles con formatos de API conocidos, lo que facilita probar alternativas sin rehacer por completo las aplicaciones.
| Tipo de proveedor | Ventaja principal | Riesgo o limitación |
| Modelos frontera occidentales | Mejor rendimiento en tareas complejas | Precio alto y dependencia de proveedor |
| Modelos chinos cerrados | Precio agresivo y adopción rápida | Riesgo geopolítico y dudas de cumplimiento |
| Modelos open source | Control y despliegue propio | Coste de operación y mantenimiento |
| Modelos pequeños especializados | Eficiencia en tareas concretas | Menor flexibilidad general |
| Arquitectura multimodelo | Optimización de coste y calidad | Más complejidad de orquestación |
Para OpenAI, Anthropic y Google, el problema no es que todos los clientes vayan a abandonar sus modelos. El problema es que dejen de usarlos para todo. Si una empresa reduce el uso de modelos premium a los casos realmente difíciles, el volumen de tokens de alto margen puede bajar, aunque la marca siga siendo fuerte.
Esto obliga a los grandes proveedores a justificar el precio con algo más que inteligencia bruta. Necesitan mejor eficiencia por tarea, mejores garantías empresariales, seguridad, cumplimiento, privacidad, herramientas de desarrollo, observabilidad, memoria, agentes, integración con datos corporativos y acuerdos de nivel de servicio.
La capacidad de cómputo necesita ocupación
La otra cara de la bajada de precios está en la infraestructura. China ha invertido mucho en centros de datos, redes de cómputo, chips nacionales y plataformas de supercomputación. Parte de esa inversión responde a una necesidad estratégica: reducir dependencia de NVIDIA y de proveedores estadounidenses. Pero construir capacidad no garantiza demanda rentable.
Un centro de IA con baja ocupación es un problema financiero y energético. Los servidores consumen capital, espacio, mantenimiento, refrigeración y electricidad. Si no hay suficientes cargas de trabajo, los descuentos se convierten en una herramienta para atraer usuarios y convertir capacidad ociosa en actividad.
| Señal de mercado | Interpretación posible |
| Tokens gratuitos | Captar usuarios y generar hábito |
| Planes muy baratos | Aumentar volumen de consumo |
| OCR a precio mínimo | Llenar capacidad con tareas masivas |
| Paquetes de operadores | Normalizar el token como producto |
| Red nacional de cómputo | Redistribuir capacidad entre regiones |
| Modelos múltiples en una plataforma | Evitar capacidad fragmentada |
La situación no es exclusiva de China. En Estados Unidos también hay preocupación por la eficiencia del gasto en IA, la ocupación de GPUs y el retorno real de gigantescas inversiones en centros de datos. La diferencia es que China está intentando convertir el cómputo en una infraestructura coordinada a escala nacional, mientras el modelo estadounidense depende más de grandes compañías privadas y acuerdos bilaterales con clientes.
El resultado puede ser una presión de precios sostenida. Si una parte de la capacidad china necesita ocupación y puede ofrecer tokens baratos, los proveedores globales tendrán que responder, al menos en los segmentos más básicos.
La IA empresarial entra en modo FinOps
Para los CIO y CTO, el mensaje es práctico. La IA ya no puede gestionarse como una partida experimental sin control. Hace falta FinOps aplicado a modelos: medir consumo por equipo, tarea, agente, aplicación, proveedor y resultado.
Las empresas deberán saber qué modelos se usan, para qué tareas, con qué coste, con qué calidad y con qué riesgo. También necesitarán políticas para evitar que un agente use un modelo caro cuando uno barato sería suficiente, o que un modelo barato procese datos sensibles sin garantías adecuadas.
| Práctica recomendada | Objetivo |
| Router de modelos | Elegir el modelo adecuado por tarea |
| Presupuesto por agente | Evitar costes inesperados |
| Evaluación por coste por tarea | Medir valor real, no solo tokens |
| Caching de contexto | Reducir llamadas repetidas |
| Modelos pequeños especializados | Ahorrar en tareas predecibles |
| Observabilidad de prompts | Detectar desperdicio y errores |
| Política de datos | Separar tareas sensibles y no sensibles |
La gobernanza también será importante. Un modelo chino barato puede ser atractivo para procesar contenido público, traducciones internas o prototipos. Pero quizá no sea aceptable para datos regulados, propiedad intelectual sensible o información de clientes europeos. El ahorro no puede evaluarse sin mirar cumplimiento, residencia de datos, contratos y trazabilidad.
La decisión no será ideológica, sino operacional. Algunas tareas irán a modelos baratos. Otras, a modelos premium. Otras, a modelos autoalojados. La arquitectura ganadora será la que combine coste, rendimiento y control.
El precio bajo no siempre gana
La guerra de precios no significa que los modelos frontera pierdan valor. En tareas complejas, un modelo más caro puede terminar siendo más barato si reduce errores, reintentos y supervisión. También puede aportar mejores capacidades de razonamiento, programación, uso de herramientas, análisis multimodal o seguimiento de instrucciones.
La clave está en evitar comparaciones simplistas. Un modelo de 0,10 dólares por millón de tokens no es necesariamente mejor negocio que uno de 5 dólares si el primero requiere diez llamadas, genera más errores o necesita revisión humana. La productividad final puede depender más de la tasa de acierto que del precio unitario.
| Tarea | Modelo más probable |
| OCR masivo | Modelo barato o servicio especializado |
| Clasificación simple | Modelo pequeño o económico |
| Resúmenes internos | Modelo medio con buen coste |
| Programación compleja | Modelo premium o agente especializado |
| Investigación jurídica | Modelo avanzado con control y auditoría |
| Soporte de primer nivel | Modelo económico con escalado |
| Decisiones reguladas | Modelo gobernado y trazable |
Esta será una de las grandes tensiones de 2026 y 2027. Los directores financieros querrán reducir gasto. Los equipos técnicos querrán mantener calidad. Los proveedores intentarán defender márgenes. Y los modelos chinos, abiertos o subvencionados por capacidad abundante, seguirán presionando el precio de la inferencia.
La nueva carrera no es solo por el mejor modelo
La lectura más interesante es que el mercado de IA está pasando de una carrera por el modelo más potente a una competición por eficiencia. Ganará quien consiga resolver tareas reales con menor coste, menor latencia, mayor fiabilidad y mejor integración empresarial.
China intenta hacerlo desde la escala y el precio. Estados Unidos mantiene ventaja en modelos frontera, ecosistemas empresariales y grandes plataformas cloud. Europa observa el debate con una preocupación añadida: soberanía, cumplimiento y dependencia tecnológica.
La presión china puede beneficiar a los clientes. Más competencia suele traer precios más bajos, mejores herramientas y más opciones. Pero también puede complicar decisiones de arquitectura. Usar IA barata sin estrategia puede generar dependencia, riesgos de datos o resultados de baja calidad. Usar solo modelos premium puede hacer inviable escalar agentes en producción.
El mercado se dirige hacia una conclusión bastante clara: la IA empresarial será multimodelo. No habrá un único proveedor para todo, ni un único modelo dominante en todas las tareas. Las empresas combinarán modelos frontera, modelos chinos, modelos abiertos, modelos pequeños y servicios especializados según coste, riesgo y rendimiento.
La campaña china de tokens baratos no es una anécdota comercial. Es una señal de madurez del mercado. Cuando el cómputo se vende con descuentos, promociones y paquetes mensuales, la IA deja de ser una demostración de laboratorio y empieza a parecerse a una industria de volumen. Y en una industria de volumen, el precio pesa.
Preguntas frecuentes
¿Por qué China está bajando precios de cómputo para IA?
Porque quiere aumentar el uso de su infraestructura nacional de cómputo, atraer empresas y desarrolladores, y convertir los tokens de IA en un servicio masivo similar a los datos móviles.
¿Qué significa coste por tarea en IA?
Es el coste total de completar un trabajo de principio a fin, incluyendo tokens, reintentos, tiempo de ejecución, supervisión humana, calidad y errores. Es una métrica más útil que mirar solo el precio por millón de tokens.
¿Los modelos chinos sustituirán a ChatGPT, Claude o Gemini?
No en todos los casos. Pueden ganar mucho terreno en tareas simples o repetitivas, pero los modelos premium seguirán siendo valiosos en trabajos complejos, regulados o de alto impacto.
¿Qué deberían hacer las empresas?
Adoptar una estrategia multimodelo, medir costes por tarea, usar routers de modelos, aplicar políticas de datos y reservar los modelos más caros para casos donde realmente aporten valor.













