El apetito imparable de los bots de IA asfixia a los sitios de software libre y medios digitales

La inteligencia artificial no solo está transformando el panorama tecnológico, sino que también está generando un problema cada vez más difícil de gestionar: el tráfico masivo e incontrolable de bots automatizados que invaden webs de proyectos open source, medios digitales y portales especializados para recolectar datos sin ningún tipo de limitación. La misión es clara: alimentar enormes bases de datos con información pública que permita entrenar modelos de IA cada vez más potentes. Pero el precio lo pagan los administradores y las infraestructuras que sostienen estos contenidos.

Uno de los casos más ilustrativos lo ha dado a conocer recientemente el equipo responsable del entorno de escritorio GNOME. En tan solo 2,5 horas, sus servidores recibieron 81.000 peticiones, de las cuales solo un 3 % pudieron ser verificadas como humanas mediante su sistema de prueba de trabajo (proof-of-work) Anubi. El restante 97 % eran bots de scraping que saturaban los recursos. Estos robots, muchas veces desplegados por empresas tecnológicas para obtener datos masivos, no respetan archivos de exclusión como robots.txt y utilizan miles de direcciones IP diferentes para evitar bloqueos.

Este problema no se limita a los proyectos de software libre. En nuestra propia red de medios, compuesta por portales especializados como administraciondesistemas.com o educacion2.com, el panorama es aún más preocupante: en algunos casos, los bots representan hasta el 90 % del tráfico, superando con creces al rastreo legítimo de Google. Esta situación genera un consumo desproporcionado de ancho de banda y recursos del servidor, además de comprometer la experiencia de los usuarios reales.

Las grandes compañías tecnológicas detrás de esta avalancha de tráfico automatizado —entre ellas OpenAI, con su conocido GPTBot; ByteDance, con Bytespider; así como los bots de Claude, Perplexity o DeepSeek, entre otros— son responsables de enviar millones de solicitudes diarias a sitios públicos. Lo hacen sin pedir autorización, sin respetar los límites de las plataformas y, en muchos casos, camuflándose para evitar ser detectados. Aunque algunos de estos bots pueden bloquearse mediante su User Agent, la mayoría oculta su identidad simulando ser navegadores móviles o usuarios legítimos, lo que hace extremadamente difícil frenar esta actividad.

Proyectos como KDE, Fedora, RockyLinux/AlmaLinux, LWN o Frame Software también han denunciado el creciente problema. El tráfico procedente de estos bots llega a representar entre el 80 % y el 90 % de las visitas, lo que obliga a reforzar las infraestructuras, implementar sistemas anti-bot y gastar recursos que, en la mayoría de los casos, no estaban previstos para soportar semejante carga.

El impacto es doble: por un lado, el colapso potencial de los servidores y los costes asociados a mantenerlos; por otro, la explotación gratuita y masiva de contenidos y datos que fueron generados para la comunidad, y no para enriquecer sin compensación alguna a corporaciones tecnológicas.

El apetito insaciable de los bots de IA no distingue entre grandes proyectos, portales educativos o pequeños medios digitales. En muchos casos, el volumen de tráfico automatizado supera ampliamente al tráfico humano, poniendo contra las cuerdas a organizaciones que apenas pueden defenderse.

Ante este escenario, algunos expertos reclaman una regulación urgente que limite y controle el acceso automatizado a datos públicos. Otros proponen sistemas de licencias o compensación económica por el uso intensivo de estos recursos. Mientras tanto, las comunidades de código abierto y los medios digitales continúan librando una batalla desigual contra gigantes tecnológicos que solo buscan engordar sus modelos sin importar las consecuencias.

El equilibrio entre acceso abierto y explotación desmedida está cada vez más roto. Si no se actúa pronto, la “libertad” que ofrece la web podría acabar siendo el mayor problema para quienes crean y comparten conocimiento desinteresadamente. La pregunta ya no es si ocurrirá, sino cuándo llegarán las primeras restricciones serias para proteger a quienes, hasta ahora, sostenían el ecosistema digital.

Scroll al inicio