GPTBot: cómo bloquear el rastreador de OpenAI en tu web

OpenAI publicó en agosto de 2023 la documentación oficial de GPTBot, su rastreador web. El bot recopila texto de páginas públicas para alimentar el entrenamiento de modelos como GPT-3.5 y GPT-4. Los administradores de sitios que no quieran que su contenido entre en ese ciclo tienen una vía sencilla: el archivo robots.txt.

Qué es GPTBot y qué recopila

GPTBot se identifica en las peticiones HTTP con el user-agent GPTBot. Opera desde rangos de IP que OpenAI publica en su documentación. Según la propia compañía, el bot está configurado para no visitar páginas protegidas por muro de pago ni páginas que contengan datos personales sensibles. El resto del web público queda dentro de su alcance salvo que el propietario del sitio lo restrinja.

OpenAI también despliega ChatGPT-User, un user-agent separado que corresponde al plugin de navegación de ChatGPT, distinto del rastreador de entrenamiento. Para bloquear ambos se necesitan dos reglas.

Bloqueo completo de GPTBot

Para impedir que GPTBot acceda a cualquier parte del sitio, añade al archivo robots.txt:

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

Las dos primeras líneas bloquean el rastreador de entrenamiento; las dos siguientes bloquean el plugin de navegación de ChatGPT. La efectividad de este bloqueo depende de que OpenAI respete el estándar robots.txt, que la compañía ha confirmado que sigue.

Bloqueo parcial por directorio

Si quieres excluir solo ciertas secciones, la sintaxis permite combinar directivas Allow y Disallow:

User-agent: GPTBot
Allow: /blog/
Disallow: /datos-privados/

Con esta configuración el bot puede visitar /blog/ pero no /datos-privados/. El orden de las reglas importa: se aplica la primera que coincida con la URL.

Por qué puede interesarte bloquearlo

La discusión sobre el rastreo de contenido por parte de empresas de IA mezcla varias cuestiones. La primera es legal: el uso de textos protegidos por derechos de autor para entrenar modelos comerciales está siendo cuestionado en varios procedimientos judiciales en Estados Unidos y Europa. La segunda es económica: algunos editores prefieren negociar licencias de uso antes que ceder sus datos sin contraprestación. La tercera es técnica: permitir que ChatGPT cite tu contenido en respuestas directas puede reducir el tráfico que llegaría a tu sitio de forma orgánica.

Para contexto sobre cómo la programación asistida por IA cambia los flujos de trabajo en el sector tech, la situación de GPTBot forma parte de un debate más amplio sobre quién controla los datos que alimentan estos modelos.

Preguntas frecuentes

¿Bloquear GPTBot afecta al posicionamiento en Google?

No. GPTBot y Googlebot son rastreadores distintos. Bloquear GPTBot en robots.txt no tiene ningún efecto sobre el indexado en Google u otros buscadores.

¿OpenAI respeta realmente el robots.txt?

OpenAI ha confirmado que GPTBot respeta las directivas de robots.txt. No hay forma de verificar el cumplimiento de forma independiente, pero la compañía lo incluye en su política oficial de uso del bot.

¿Hay alternativas al robots.txt para bloquear GPTBot?

Sí. Puedes bloquear los rangos de IP que OpenAI publica en su documentación a nivel de servidor o de firewall. También puedes usar la etiqueta meta noindex junto con robots.txt, aunque esta combinación es más habitual para buscadores que para bots de IA.

¿Puedo bloquear a otros bots de IA con el mismo método?

Sí. Anthropic tiene su propio bot (ClaudeBot), Google usa Google-Extended para datos de entrenamiento de Gemini, y Meta tiene FacebookBot. Cada uno requiere una regla de user-agent separada en robots.txt.

Scroll al inicio