Las webs que alimentan a ChatGPT y otros LLM, según el análisis del C4

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Un análisis del Washington Post publicado en abril de 2023 identificó qué sitios web alimentan al conjunto de datos C4 de Google, uno de los conjuntos de entrenamiento más usados para grandes modelos de lenguaje (LLM) como T5 de Google y LLaMA de Meta. El resultado revela una mezcla poco homogénea: medios de referencia internacional, bibliotecas digitales de pago, mercados de libros pirateados y bases de datos de registros de votantes.

Qué es el C4 y por qué importa

El conjunto de datos C4 (Colossal Clean Crawled Corpus) parte de un rastreo web realizado en abril de 2019 por CommonCrawl, una organización sin ánimo de lucro que indexa miles de millones de páginas. CommonCrawl prioriza sitios con mayor reputación y tráfico, pero no filtra contenido con licencia ni protegido por derechos de autor. Eso significa que cualquier texto accesible públicamente puede acabar entrenando a un LLM, sin que el propietario del contenido lo sepa ni haya dado permiso explícito.

El análisis del Washington Post revisó qué dominios aparecen con más frecuencia en el C4. Los tres primeros son patents.google.com, con millones de registros de patentes; wikipedia.org, la enciclopedia libre; y scribd.com, una biblioteca digital de acceso por suscripción. Más abajo aparecen nytimes.com, latimes.com, theguardian.com, forbes.com y huffpost.com.

Problemas de sesgo, privacidad y derechos de autor

Tres son los problemas concretos que señala el estudio. El primero es el sesgo: los dominios más representados son principalmente anglosajones y de temática periodística o tecnológica, lo que condiciona el tipo de respuestas que dan los modelos entrenados con estos datos. El segundo es la privacidad, porque el C4 incluye bases de datos con registros de votantes de varios estados de EE. UU., información que en teoría no debería formar parte de un conjunto de entrenamiento comercial. El tercero son los derechos de autor: entre los dominios identificados hay sitios conocidos por distribuir libros electrónicos sin licencia.

Estos tres problemas combinados pueden llevar a los modelos a reproducir información incorrecta, propaganda o contenido sesgado, según apunta el análisis. No es un problema exclusivo del C4: otros conjuntos usados por distintas empresas comparten defectos similares, aunque con variaciones según las políticas de filtrado de cada organización.

Qué significa para los propietarios de webs

Si tu sitio web tiene contenido público y estuvo activo en 2019 o antes, es probable que forme parte del C4 o de rastreos similares. CommonCrawl no ofrece un mecanismo sencillo para solicitar la exclusión retroactiva, aunque sí acepta peticiones formales. La mayoría de los propietarios de sitios desconocen que su contenido ha sido indexado y reutilizado para entrenar modelos que hoy generan respuestas en ChatGPT, Gemini o Claude.

La discusión legal sobre si este uso constituye infracción de derechos de autor sigue abierta en varios países. En EE. UU., varias demandas contra OpenAI y Meta están en distintas fases procesales, y la respuesta de los tribunales determinará cómo se construyen los próximos conjuntos de entrenamiento. Puedes ver cómo modelos más recientes intentan responder a estas limitaciones en el artículo sobre SubQ y los límites del contexto largo en LLM.

En paralelo, compañías como OpenAI han empezado a documentar públicamente cómo aplican restricciones técnicas a sus propios modelos para reducir el riesgo legal y de seguridad, algo que se refleja en iniciativas como las medidas de seguridad aplicadas a Codex.

Preguntas frecuentes

¿Qué es el conjunto de datos C4?

Es el Colossal Clean Crawled Corpus, un conjunto de texto recopilado de rastreos web de CommonCrawl y filtrado para entrenamiento de LLM. Lo usó Google para entrenar T5 y sirvió de base para otros modelos como LLaMA de Meta.

¿ChatGPT usa el C4 para entrenarse?

OpenAI no ha confirmado el uso específico del C4. ChatGPT se entrena con conjuntos propios que incluyen texto web, libros y datos con licencia, pero la composición exacta no es pública.

¿Puedo pedir que mi web no forme parte de estos datos?

Puedes usar el archivo robots.txt para bloquear a los rastreadores de IA (muchas empresas ya respetan las directivas GPTBot o Google-Extended). Para datos ya indexados, puedes contactar con CommonCrawl directamente, aunque el proceso no es inmediato.

¿Es ilegal usar contenido web para entrenar IA?

Depende del país y del tipo de uso. En EE. UU. se debate si cae bajo la doctrina del uso justo (fair use). En Europa, la IA Act y la directiva de derechos de autor imponen requisitos de transparencia que aún están en fase de implementación.

Fuente: análisis interactivo del Washington Post sobre el dataset C4.