La empresa detrás del motor de respuestas impulsado por IA habría utilizado agentes no declarados y direcciones IP rotativas para eludir restricciones de robots.txt
En un contundente informe publicado el 4 de agosto de 2025, Cloudflare ha acusado públicamente a Perplexity, una startup de inteligencia artificial en rápido crecimiento, de emplear prácticas opacas para recopilar contenido web. Según los datos presentados, Perplexity habría estado ignorando directivas explícitas de no rastreo y utilizando bots disfrazados con agentes de usuario falsos, así como IPs fuera de sus rangos oficiales, para seguir accediendo a páginas bloqueadas.
El comportamiento, calificado como rastreo furtivo (stealth crawling), ha llevado a Cloudflare a eliminar a Perplexity de su lista de bots verificados y a actualizar sus reglas de gestión de bots para bloquear esta actividad de forma automática.
Una ruptura de confianza en el ecosistema web
Desde sus inicios, la web ha funcionado sobre un principio básico: la confianza entre sitios y bots. Las reglas, como las recogidas en el archivo robots.txt
, permiten a los administradores web definir con claridad qué partes de su contenido pueden ser rastreadas y por quién. Cloudflare advierte que Perplexity ha ignorado estas reglas sistemáticamente.
“El comportamiento observado es incompatible con las normas abiertas de rastreo web”, afirma el equipo de Cloudflare. “Los bots bienintencionados deben ser transparentes, identificables y respetar las preferencias de los sitios web.”
¿Cómo se detectó el rastreo encubierto?
Cloudflare recibió múltiples quejas de clientes que, a pesar de bloquear explícitamente los bots PerplexityBot y Perplexity-User, seguían viendo que la compañía accedía a sus contenidos. Para verificar estas denuncias, Cloudflare creó varios dominios de prueba privados y protegidos con reglas estrictas en robots.txt
, además de reglas de firewall (WAF) diseñadas para detener cualquier acceso automatizado.
Sin embargo, al realizar consultas en la plataforma de Perplexity sobre estos sitios experimentales, la IA devolvía respuestas detalladas y precisas sobre sus contenidos, lo que indicaba que los había rastreado o recopilado de algún modo.
Doble identidad: agente declarado y agente encubierto
Cloudflare identificó dos formas de acceso desde Perplexity:
Tipo de bot | User-Agent | Peticiones diarias estimadas |
---|---|---|
Declarado | Mozilla/5.0 (compatible; Perplexity-User/1.0) | 20-25 millones |
Encubierto | Mozilla/5.0 (Macintosh; Intel Mac OS X…) Chrome/124… | 3-6 millones |
Este bot encubierto se hace pasar por un navegador Chrome en macOS, y utiliza IPs rotativas y ASNs variados para sortear los bloqueos impuestos por Cloudflare y las reglas de robots.txt
.
“Cuando Perplexity detecta que ha sido bloqueado, cambia su identidad, utiliza nuevas IPs, y sigue intentando acceder al contenido. Este comportamiento fue observado en miles de dominios y millones de peticiones diarias”, explica Cloudflare.
Diferencia con el enfoque de OpenAI
En su análisis, Cloudflare comparó el comportamiento de Perplexity con el de otros actores del sector, como OpenAI, que sigue buenas prácticas:
- Usa user-agents claramente definidos y públicos.
- Respeta
robots.txt
y bloqueos a nivel de red. - Firma sus peticiones HTTP usando el nuevo estándar Web Bot Auth.
- No intenta continuar el rastreo desde otros agentes si se encuentra con un bloqueo.
En los mismos experimentos de Cloudflare, ChatGPT-User dejó de rastrear al ser desautorizado, lo que muestra un cumplimiento claro de las políticas de los sitios web.
Nuevas medidas de defensa para los clientes
Cloudflare ha implementado nuevas reglas en su servicio de gestión de bots que permiten a los clientes:
- Bloquear completamente este tipo de rastreo no autorizado.
- Retar a los bots mediante desafíos (challenge) para discernir humanos reales.
- Utilizar la funcionalidad de robots.txt gestionado, adoptada ya por más de 2,5 millones de sitios, que bloquea automáticamente bots de IA no deseados.
Además, la empresa sigue colaborando con organizaciones como IETF para estandarizar nuevas extensiones de robots.txt que hagan frente a estas tácticas evasivas.
Conclusión
El caso de Perplexity pone de relieve los crecientes desafíos en el equilibrio entre innovación en inteligencia artificial y el respeto por los derechos de los creadores y propietarios de contenido. En un momento en el que millones de páginas están restringiendo el acceso a sus datos para entrenamiento de IA, el uso de técnicas furtivas puede tener graves consecuencias éticas, legales y comerciales.
Cloudflare ha trazado una línea clara: los bots que no respeten las normas serán bloqueados. Y el mensaje para el ecosistema es inequívoco: sin confianza y transparencia, no hay futuro para la web abierta.
vía: blog.cloudflare.com