En pleno auge de la Inteligencia Artificial generativa, un ajuste técnico aparentemente menor en Google está reconfigurando el acceso a la web a escala. Durante días, las redes se han llenado de mensajes sobre un supuesto “bloqueo” de Google a ChatGPT y titulares que hablan de que “el 90 % de Internet ha desaparecido”. La realidad es menos dramática, pero mucho más relevante para el ecosistema de modelos de lenguaje y agentes de IA.
Google no ha prohibido a ChatGPT ni ha apagado la web. Lo que ha hecho es retirar un viejo truco técnico: el parámetro num=100, que permitía cargar hasta 100 resultados por página en una búsqueda. A partir de ahora, las consultas se limitan, en la práctica, a unos 10 resultados por bloque de SERP, aunque el usuario pueda hacer scroll o seguir navegando.
Para el usuario medio, casi nada cambia. Para una parte importante de la industria de la IA, es un terremoto silencioso.
El parámetro num=100: la tubería oculta que alimentaba a la IA
Durante años, &num=100 fue el atajo que permitió a scrapers, herramientas SEO y proyectos de IA “beber” de Google con muy pocas peticiones. Bastaba una llamada para obtener los 100 primeros resultados orgánicos de una consulta. Encima de esa tubería se construyeron:
- Sistemas de rank tracking y visibilidad en buscadores.
- Plataformas de investigación de keywords y competencia.
- Startups de IA que necesitaban descubrir, en tiempo casi real, qué había publicado la web sobre un tema.
Al eliminar ese parámetro, el coste se multiplica. Lo que antes se conseguía con 1 petición requiere ahora unas 10. Eso supone más ancho de banda, más probabilidades de activar captchas y bloqueos, y mayor inversión en infraestructura para mantener el mismo nivel de cobertura.
Para Google, el movimiento reduce una vía de extracción masiva de datos que nunca fue un canal oficial. Para quienes construían sus productos sobre ese atajo, la cuenta deja de salir tan barata.
El “derrumbe” de visibilidad que encendió las alarmas
El cambio no solo se ha notado en los scrapers. También ha sacudido los paneles de Google Search Console, el panel de referencia para SEOs y responsables de contenido.
Un análisis reciente sobre cientos de propiedades muestra que alrededor del 87,7 % de los sitios experimentó caídas de impresiones y cerca del 77,6 % perdió términos de búsqueda únicos tras el fin efectivo de num=100.
En el ecosistema de la IA, esa cifra se ha interpretado con dramatismo: si tres de cada cuatro webs pierden visibilidad, los modelos de lenguaje conectados a buscadores verán mucho menos contenido. Sin embargo, los expertos señalan un matiz clave: lo que está desapareciendo de las métricas son sobre todo impresiones profundas, en posiciones muy bajas y, en muchos casos, infladas por tráfico automatizado.
En muchos sitios, los clics y el tráfico orgánico real apenas han variado. Lo que ha cambiado es el termómetro con el que se mide la “visibilidad”, no la realidad del usuario humano.
Para el mundo de la IA, el mensaje es doble: las métricas basadas en SERP necesitan reinterpretarse, y los modelos que dependían en exceso de esos datos tienen ahora una foto más estrecha de la web.
Menos long tail para modelos de lenguaje y agentes de IA
Donde el impacto se vuelve realmente relevante para un medio de noticias sobre IA es en el acceso al long tail de Internet. La eliminación efectiva de los 100 resultados por página penaliza la exploración de posiciones 20, 40 o 80, donde suelen aparecer:
- Blogs de nicho con alta especialización.
- Foros y comunidades con debates técnicos o experiencias reales.
- Medios pequeños y proyectos locales que no logran entrar en el top 10.
Muchos agentes de IA, herramientas de RAG (retrieval-augmented generation) y sistemas de búsqueda semántica se apoyaban en scrapers basados en Google para enriquecer sus respuestas con contenido fresco y diverso. Al encarecer el acceso a resultados profundos, se da un paso más hacia un ecosistema en el que los modelos tienden a ver, sobre todo, lo que ya está arriba.
En la práctica, esto puede traducirse en:
- Respuestas más homogéneas, basadas en los mismos dominios de siempre.
- Menor representación de voces pequeñas y especializadas.
- Riesgo de sesgos reforzados, al entrenar o ajustar modelos con una web “acortada” por la propia infraestructura de acceso.
La red no se hace más pequeña, pero la lente con la que muchos sistemas de IA la miran sí.
Ventaja para quienes tienen índice propio (y para quienes firman acuerdos)
El movimiento de Google favorece a quienes pueden jugar en otra liga: la de los índices propios y los acuerdos de datos.
En la práctica, hay tres grandes grupos beneficiados:
- Los propios buscadores, como Google o Bing, que controlan de origen gigantescos índices de la web.
- Las grandes plataformas de IA —OpenAI, Anthropic, Google DeepMind, Meta…— que ya trabajan con rastreadores propios, conjuntos de datos abiertos y licencias de contenido con medios y agregadores.
- Las empresas capaces de pagar APIs comerciales de búsqueda o acuerdos a medida, en lugar de depender de scrapers low-cost.
Para las pequeñas herramientas SEO, startups de IA y proyectos que se apoyaban en scraping directo sobre Google para alimentar sus modelos o paneles, el escenario es mucho más complicado. Mantener el mismo nivel de detalle implica asumir costes que, en algunos casos, obligarán a recortar características o a subir precios.
En un momento en que crece la demanda de agentes autónomos, copilotos corporativos y sistemas de IA conectados a fuentes externas, esta barrera técnica actúa como una forma indirecta de regulación: solo quien tenga músculo financiero o acuerdos sólidos podrá ver la web “en profundidad”.
¿Ha cerrado Google la puerta a ChatGPT?
La frase se ha convertido en un mantra en redes. La realidad es más matizada.
Google no ha activado un bloqueo selectivo contra ChatGPT ni contra un modelo concreto. Lo que ha hecho es restringir un mecanismo que permitía a cualquier actor —incluyendo servicios que dan soporte a ChatGPT o a otros modelos— obtener muchos resultados con muy pocas peticiones.
Para ChatGPT y plataformas similares, el impacto dependerá de su grado de dependencia de ese método. Los grandes modelos combinan varias fuentes:
- Índices propios y rastreos directos.
- Datasets públicos de gran escala.
- Contenido licenciado de medios y bases de datos.
- Acceso a APIs de búsqueda comerciales o acuerdos con proveedores.
Allí donde el flujo de datos dependía de scrapers basados en num=100, el cambio se nota. Pero la foto completa no es la de un “apagón” generalizado, sino la de una transición acelerada hacia un acceso más controlado y caro a los datos que alimentan la IA.
Qué significa este cambio para la industria de la IA
Para un medio especializado en IA, el movimiento de Google deja varias conclusiones importantes:
- La web abierta sigue siendo crucial, pero deja de ser barata. Construir modelos y agentes que vean Internet a escala “Google” pasa a ser un privilegio de pocos actores.
- Los modelos de lenguaje corren el riesgo de encerrarse en burbujas de contenido dominante. Si el coste de mirar profundo sube, la tentación es entrenar, ajustar y responder principalmente con lo que ya está arriba.
- Se refuerza la importancia de los acuerdos de datos. En la próxima década, gran parte de la ventaja competitiva de los modelos no estará solo en la arquitectura o el tamaño, sino en qué datos pueden usar legalmente y con qué nivel de frescura y profundidad.
- Crece el valor de las fuentes propias. Para empresas que desarrollan IA corporativa, pasar de depender de la web pública a apoyarse en datos internos, documentación privada y repositorios especializados será cada vez más estratégico.
Lo que Google ha movido es una pieza técnica, pero su efecto se nota en un punto crítico: quién puede mirar Internet, cómo y a qué coste. Y esa pregunta está en el centro de la carrera por la próxima generación de modelos de lenguaje y agentes inteligentes.
Preguntas frecuentes
¿Cómo afecta la eliminación de num=100 a los modelos de lenguaje que usan RAG (retrieval-augmented generation)?
Afecta sobre todo a las implementaciones que basaban su capa de búsqueda en scrapers de Google. Para recuperar contexto relevante, muchas soluciones RAG se apoyaban en resultados extensos (hasta 100 URLs por consulta) para luego filtrar y reordenar. Al desaparecer esa opción, obtener el mismo volumen de candidatos implica más peticiones, más coste y mayor exposición a límites y captchas. Las plataformas que quieran mantener un buen rendimiento tendrán que migrar hacia índices propios, APIs de búsqueda comerciales o fuentes de datos más estructuradas.
¿Este cambio de Google puede empeorar la calidad de las respuestas de la IA en temas de nicho?
Es posible. En temas muy populares, la información relevante suele concentrarse en los primeros resultados, que siguen siendo accesibles sin problemas. Pero en temas de nicho, investigaciones poco conocidas o comunidades especializadas, gran parte del contenido útil vive fuera del top 10. Si los sistemas de IA reducen su cobertura de esas posiciones profundas por coste o fricción, las respuestas tenderán a basarse en menos fuentes y, con frecuencia, en las mismas de siempre. Eso puede generar sesgos hacia visiones más mainstream y empobrecer la diversidad informativa.
¿Qué pueden hacer las empresas que desarrollan IA para no depender tanto de cambios en Google?
La tendencia apunta hacia tres líneas de acción: construir o integrar índices propios (por ejemplo, rastreando dominios relevantes para su sector), firmar acuerdos de acceso a datos con medios, proveedores y plataformas, y aprovechar al máximo los datos internos de la organización: documentación, bases de conocimiento, tickets, código, etc. También es recomendable diseñar arquitecturas de búsqueda que no dependan de un solo proveedor, combinando diferentes fuentes y capas de recuperación para minimizar el riesgo de cambios unilaterales.
¿Este movimiento acelera la concentración del poder de datos en pocas compañías de IA?
Todo apunta a que sí. Si el acceso barato y masivo a los resultados de Google se reduce, sobresaldrán quienes ya tienen capacidad para rastrear la web por su cuenta, almacenar índices gigantescos y negociar licencias de contenido. Es un entorno en el que los grandes modelos de lenguaje de unas pocas compañías parten con ventaja. La respuesta de la comunidad —con iniciativas de índices abiertos, estándares de datos y esfuerzos de soberanía digital— será clave para evitar que la IA del futuro dependa exclusivamente de lo que unos pocos actores pueden o quieren ver de Internet.




