Cómo bloquear rastreadores de IA en tu web: GPTBot, ClaudeBot y más

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Los modelos de lenguaje grandes (LLM) de OpenAI, Google, Anthropic, Meta y otras compañías se entrenan, en parte, con contenido extraído de la web pública. Desde 2023, cada una ha desplegado rastreadores propios con agentes de usuario específicos. Si no quieres que tu contenido acabe en el próximo ciclo de entrenamiento, puedes bloquearlo: la mecánica es la misma de siempre, solo cambia la lista de nombres.

La falta de atribución a las fuentes originales puede erosionar el tráfico y la autoridad de los sitios que generaron ese contenido. A medida que la factura real del entrenamiento de IA no para de crecer, también lo hace el apetito de datos de los grandes laboratorios.

Qué rastreadores hay y qué hacen

Cada empresa opera bajo uno o varios agentes de usuario. Algunos rastrean para entrenar modelos; otros, para que el asistente acceda a páginas en tiempo real cuando el usuario hace una consulta:

GPTBot (OpenAI): rastreador de entrenamiento. Documentado con política pública desde agosto de 2023.
ChatGPT-User: el agente que usa ChatGPT cuando navega por webs en tiempo real con la función de búsqueda activada.
OAI-SearchBot: rastreador de ChatGPT Search, el buscador integrado de OpenAI.
Google-Extended: bloquea a Gemini el uso de tu contenido para entrenamiento o mejora del modelo. No afecta al índice de búsqueda de Google.
ClaudeBot y anthropic-ai (Anthropic): rastreadores de entrenamiento de Claude.
PerplexityBot: rastreador del buscador con IA Perplexity.
Bytespider (ByteDance/TikTok): con historial documentado de incumplimiento de robots.txt.
CCBot (Common Crawl): no es de una empresa IA, pero sus índices alimentan el entrenamiento de muchos modelos de código abierto.
Applebot-Extended: Apple Intelligence. Bloquea el uso del contenido para entrenamiento sin afectar al índice Safari.

Bloquear por robots.txt

El método más directo. Abre el archivo robots.txt de tu dominio (en tudominio.com/robots.txt) y añade las directivas que necesites:

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

Si solo quieres bloquear el entrenamiento pero dejar que el asistente cite tu contenido en tiempo real, puedes ser selectivo. Por ejemplo, para OpenAI:

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Allow: /

Limitación importante: robots.txt es una convención, no una barrera técnica. Los rastreadores de empresas reputadas (OpenAI, Google, Anthropic) lo respetan. Bytespider y rastreadores de procedencia dudosa, no siempre.

Bloquear en .htaccess (servidores Apache)

Para servidores Apache, puedes rechazar peticiones directamente en el servidor antes de que lleguen a WordPress. Esto sí es una barrera técnica, no solo una indicación:

# Bloquear rastreadores de IA
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} GPTBot [OR]
RewriteCond %{HTTP_USER_AGENT} OAI-SearchBot [OR]
RewriteCond %{HTTP_USER_AGENT} ChatGPT-User [OR]
RewriteCond %{HTTP_USER_AGENT} ClaudeBot [OR]
RewriteCond %{HTTP_USER_AGENT} anthropic-ai [OR]
RewriteCond %{HTTP_USER_AGENT} PerplexityBot [OR]
RewriteCond %{HTTP_USER_AGENT} CCBot [OR]
RewriteCond %{HTTP_USER_AGENT} Bytespider [OR]
RewriteCond %{HTTP_USER_AGENT} Google-Extended
RewriteRule .* - [F]

Bloquear en NGINX

Para NGINX, añade esto dentro del bloque server {} correspondiente:

# Bloquear rastreadores de IA
if ($http_user_agent ~* (GPTBot|OAI-SearchBot|ChatGPT-User|ClaudeBot|anthropic-ai|PerplexityBot|CCBot|Bytespider|Google-Extended)) {
    return 403;
}

El debate legal detrás del bloqueo

La discusión sobre si el scraping de contenido web para entrenar modelos de IA es legal sigue abierta en varios países. En la Unión Europea, el AI Act (Reglamento de Inteligencia Artificial) incluye obligaciones de transparencia para los modelos de uso general sobre los datos de entrenamiento utilizados. Varios editores europeos y agencias de noticias han iniciado procedimientos contra OpenAI y otras empresas por uso de contenido sin licencia.

Añadir estas directivas no garantiza compensación retroactiva, pero deja constancia pública de que no autorizas el uso de tu contenido, algo con posible peso en futuros litigios. Si desarrollas aplicaciones con IA, conviene también revisar la guía de seguridad para desarrollo asistido por IA antes de pasar a producción. Y si quieres entender por qué los laboratorios necesitan tanto contenido, la inferencia de IA ya es una carga crítica para las empresas, lo que no hace sino aumentar la demanda de más datos.

Preguntas frecuentes

¿Bloquear GPTBot afecta al posicionamiento en Google?

No. GPTBot es el rastreador de entrenamiento de OpenAI, no el de Google. El índice de búsqueda de Google lo gestiona Googlebot, que no aparece en esta lista. Puedes bloquear GPTBot sin perder posiciones en los resultados de búsqueda.

¿Qué diferencia hay entre GPTBot y ChatGPT-User?

GPTBot rastrea webs para recopilar datos de entrenamiento. ChatGPT-User actúa cuando un usuario le pide a ChatGPT que acceda a una URL concreta en tiempo real. Puedes bloquear GPTBot pero permitir ChatGPT-User si no quieres que tu contenido sirva para entrenar el modelo, pero sí que el asistente pueda citarte en respuestas directas.

¿Por qué robots.txt no basta para Bytespider?

Bytespider, el rastreador de ByteDance, ha sido documentado como incumplidor de robots.txt en varios análisis de tráfico de servidor. Para bloquearlo de forma efectiva, combina la directiva en robots.txt con la regla en .htaccess o NGINX.

¿Existe algún estándar tipo ai.txt para controlar el acceso de la IA?

Hay propuestas en desarrollo para crear un fichero específico para IA similar a robots.txt, pero en 2026 ningún rastreador principal lo ha adoptado de forma amplia. La vía más efectiva sigue siendo robots.txt combinado con reglas de servidor.

¿Puedo bloquear solo partes de mi web?

Sí. En robots.txt puedes especificar rutas concretas en la directiva Disallow. Por ejemplo, Disallow: /noticias/ bloquea solo esa sección y deja el resto accesible al rastreador.