GLM-5.2 llega gratis a Cloudflare Workers AI: cómo probarlo con un POST

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Cloudflare ha añadido GLM-5.2 a Workers AI y el movimiento merece atención por una razón muy sencilla: pone un modelo abierto de gran tamaño detrás de una API serverless fácil de probar, con capa gratuita y sin que el desarrollador tenga que gestionar GPUs, instalar runtimes de inferencia ni mantener infraestructura propia.

El modelo aparece en la documentación de Cloudflare como @cf/zai-org/glm-5.2, un modelo de generación de texto de Z.ai, también conocida como Zhipu AI, orientado a tareas de programación con agentes, razonamiento, uso de herramientas y contextos largos. En Workers AI se ofrece con una ventana de contexto de 262.144 tokens, function calling, razonamiento y un precio unitario de 1,40 dólares por millón de tokens de entrada, 4,40 dólares por millón de tokens de salida y 0,26 dólares por millón de tokens de entrada cacheados.

La parte llamativa no es solo el precio. Cloudflare permite probar GLM-5.2 directamente desde su LLM Playground sin configuración ni autenticación, una forma rápida de ver cómo responde antes de crear una integración. Para uso real por API, sí hacen falta una cuenta de Cloudflare, el Account ID y un token de autenticación. Es una diferencia importante: probar en navegador es inmediato; llevarlo a producción exige las mismas precauciones que cualquier servicio externo de IA.

Qué acaba de cambiar

Hasta ahora, probar un modelo abierto de este tamaño solía implicar una de dos opciones: usar la API del proveedor original o desplegarlo en infraestructura propia, algo poco realista para la mayoría de desarrolladores por coste, memoria y complejidad operativa. Cloudflare coloca una tercera vía sobre la mesa: consumir el modelo como servicio desde Workers AI.

Esto no significa que la inferencia sea “sin GPU” en sentido literal. Significa que el usuario no tiene que alquilar, montar, escalar ni administrar GPUs. Cloudflare se encarga de la infraestructura y factura el uso a través de su sistema de Workers AI, que internamente sigue midiendo en “Neurons”. La capa gratuita permite 10.000 Neurons al día y los planes de pago cobran el exceso.

Característica	GLM-5.2 en Cloudflare Workers AI
Modelo	`@cf/zai-org/glm-5.2`
Proveedor del modelo	Z.ai / Zhipu AI
Tipo	Generación de texto
Contexto en Workers AI	262.144 tokens
Contexto anunciado por el modelo	Hasta 1.048.576 tokens
Function calling	Sí
Reasoning	Sí
Playground	Sin setup ni autenticación
Free tier	10.000 Neurons/día
Precio input	1,40 $/M tokens
Precio output	4,40 $/M tokens
Precio cached input	0,26 $/M tokens

El propio repositorio de Z.ai presenta GLM-5.2 como un modelo de 744B parámetros totales y 40B activos por token, con pesos disponibles en BF16 y FP8. La ficha de Hugging Face lo publica bajo licencia MIT, aunque conviene revisar siempre la licencia concreta del artefacto que se vaya a usar, especialmente en entornos comerciales.

Por qué importa para desarrolladores

La ventaja inmediata está en la fricción de entrada. Un programador puede probar GLM-5.2 desde el navegador, después llamarlo con curl y, si encaja, envolverlo en un Worker. No hace falta desplegar un endpoint propio de vLLM o SGLang, reservar una máquina con varias GPUs ni calcular cuánta VRAM necesita el modelo completo.

También cambia la conversación sobre privacidad y jurisdicción. Usar GLM-5.2 en Cloudflare Workers AI no equivale a enviar directamente los datos a una API china. La llamada se hace a Cloudflare. Pero tampoco equivale a ejecutarlo localmente: los datos siguen saliendo hacia un tercero. Para código sensible, datos personales, secretos, contratos, credenciales o información de clientes, la decisión debe pasar por una revisión de seguridad y cumplimiento.

La afirmación más razonable es esta: Cloudflare reduce la dependencia operativa del proveedor original del modelo, pero no convierte automáticamente el uso en privado, local o apto para cualquier dato.

Cómo probar GLM-5.2 en Cloudflare Workers AI

La forma más rápida es entrar en la página del modelo en la documentación de Cloudflare y abrir el LLM Playground. Cloudflare indica que no requiere setup ni autenticación para previsualizar y probar el modelo desde el navegador.

Para usarlo por API, la llamada básica con curl sería así:

export CLOUDFLARE_ACCOUNT_ID="tu-account-id"
export CLOUDFLARE_AUTH_TOKEN="tu-token"

curl "https://api.cloudflare.com/client/v4/accounts/$CLOUDFLARE_ACCOUNT_ID/ai/run/@cf/zai-org/glm-5.2" \
  -X POST \
  -H "Authorization: Bearer $CLOUDFLARE_AUTH_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "messages": [
      {
        "role": "system",
        "content": "Eres un asistente técnico claro y preciso."
      },
      {
        "role": "user",
        "content": "Explícame qué es CXL en menos de 200 palabras."
      }
    ]
  }'

Para integrarlo en un Worker con streaming, el ejemplo base sería:

export interface Env {
  AI: Ai;
}

export default {
  async fetch(request, env): Promise<Response> {
    const messages = [
      {
        role: "system",
        content: "Eres un asistente técnico claro y preciso."
      },
      {
        role: "user",
        content: "Resume las ventajas de Cloudflare Workers AI para probar modelos abiertos."
      }
    ];

    const stream = await env.AI.run("@cf/zai-org/glm-5.2", {
      messages,
      stream: true
    });

    return new Response(stream, {
      headers: {
        "content-type": "text/event-stream"
      }
    });
  }
} satisfies ExportedHandler<Env>;

En un proyecto con Wrangler, el binding de Workers AI puede declararse así en wrangler.toml:

name = "glm52-worker"
main = "src/index.ts"
compatibility_date = "2026-06-28"

[ai]
binding = "AI"

Después, el flujo normal sería instalar Wrangler, iniciar sesión en Cloudflare, desplegar el Worker y probar el endpoint:

npm create cloudflare@latest glm52-worker
cd glm52-worker
npx wrangler login
npx wrangler deploy

Para una prueba local rápida, también puede usarse Python contra el endpoint REST:

import os
import requests

account_id = os.environ["CLOUDFLARE_ACCOUNT_ID"]
token = os.environ["CLOUDFLARE_AUTH_TOKEN"]

url = f"https://api.cloudflare.com/client/v4/accounts/{account_id}/ai/run/@cf/zai-org/glm-5.2"

payload = {
    "messages": [
        {"role": "system", "content": "Eres un asistente técnico claro y preciso."},
        {"role": "user", "content": "Dame tres casos de uso para GLM-5.2 en un equipo de desarrollo."}
    ]
}

response = requests.post(
    url,
    headers={"Authorization": f"Bearer {token}"},
    json=payload,
    timeout=60
)

print(response.json())

Casos de uso donde tiene sentido

GLM-5.2 está especialmente bien colocado para pruebas de asistentes de programación, análisis de repositorios, generación de documentación técnica, agentes con herramientas, revisión de código, planificación de tareas largas y prototipos que necesitan contexto amplio. Su ventana de 262K tokens en Workers AI permite trabajar con documentos largos, aunque no llega todavía al millón de tokens que Z.ai anuncia para el modelo completo.

Caso de uso	Por qué encaja
Revisión de código	Contexto largo y razonamiento
Agentes internos	Function calling y herramientas
Documentación técnica	Buen encaje con textos largos
Prototipos de asistentes	API simple y capa gratuita
Análisis de logs	Ventana amplia de contexto
Soporte a desarrolladores	Integración fácil con Workers

Aun así, no conviene presentarlo como sustituto universal de cualquier modelo cerrado. Las comparativas publicadas por Z.ai lo sitúan muy alto en benchmarks de coding y tareas agentic, por delante de varios modelos abiertos y cerca de algunos cerrados en pruebas concretas. Pero esas cifras proceden del propio proveedor y deberían contrastarse con evaluaciones independientes antes de tomar decisiones de producción.

Tampoco hay que venderlo como “el mejor modelo open source del mundo” sin matices. Puede ser uno de los modelos abiertos más potentes disponibles en este momento para tareas largas y programación, pero el resultado real dependerá del caso de uso, el prompt, las herramientas, la latencia, el coste de salida y la estabilidad del servicio.

La lectura importante

Cloudflare no solo ha añadido otro modelo a una lista. Ha hecho algo más interesante: ha bajado el coste de probar modelos abiertos de frontera para desarrolladores que no tienen tiempo ni presupuesto para montar una plataforma de inferencia propia.

Un playground sin autenticación sirve para tocar el modelo en segundos. Una llamada REST permite integrarlo en una prueba interna. Un Worker lo convierte en endpoint serverless. Y el free tier permite experimentar sin asumir desde el primer minuto un coste de infraestructura.

Esa combinación es la que cambia el acceso. GLM-5.2 no deja de ser un modelo enorme, caro de servir y complejo de ejecutar por cuenta propia. Cloudflare lo convierte en una pieza consumible con un POST.

La parte responsable es no confundir comodidad con soberanía. No estás mandando tus datos directamente a la API de una empresa china, pero sí estás usando un servicio gestionado por Cloudflare. No estás usando GPUs propias, pero alguien las está usando por ti. No estás desplegando el modelo, pero sí dependes de la disponibilidad, límites, precio y políticas de un tercero.

Para equipos de desarrollo, startups, administradores de sistemas y medios técnicos que quieran experimentar con IA abierta sin pelearse con infraestructura, GLM-5.2 en Workers AI es una de esas novedades que merece una prueba inmediata. La barrera ya no es montar el modelo. Es decidir qué construir con él.

Preguntas frecuentes

¿GLM-5.2 en Cloudflare Workers AI es gratis?
Tiene una capa gratuita de 10.000 Neurons al día. Si se supera ese límite, hay que usar Workers Paid y pagar el consumo adicional.

¿Hace falta autenticación para probarlo?
Para el LLM Playground, Cloudflare indica que no hace falta setup ni autenticación. Para usar la API o desplegar un Worker sí hacen falta cuenta, Account ID y token.

¿Se ejecuta en mi máquina?
No. Se consume como servicio desde Cloudflare Workers AI. El usuario no gestiona GPUs ni despliega el modelo, pero los datos se envían a Cloudflare.

¿Cuál es el identificador del modelo?
El identificador es @cf/zai-org/glm-5.2.