Un estudio hace público las webs que hacen inteligente a ChatGPT y otras IAs

Un análisis realizado por un diario mundial sobre de dónde obtienen la información los chatbots de IA, como ChatGPT, para sus respuestas, revelando que estos extraen datos de millones de sitios web, sin importar su legitimidad o fiabilidad. La fuente principal de información para estos chatbots proviene del texto recopilado en internet, incluyendo sitios web de todo tipo, como ebooks, contenido bajo suscripción, páginas de contenido pirata y registros de votantes.

El análisis del Washington Post se centró en el conjunto de datos C4 de Google, utilizado para entrenar modelos de lenguaje de gran envergadura, como el T5 de Google y el LLaMA de Facebook. Se descubrió que el conjunto de datos incluye sitios web de periodismo, entretenimiento, desarrollo de software, medicina y creación de contenido, así como sitios web conocidos por ser mercados de libros electrónicos pirateados. Además, se encontraron sitios web con preocupaciones importantes sobre la privacidad, como bases de datos de registro de votantes.

El estudio también reveló que el conjunto de datos C4 contiene información de sitios de noticias y medios, sitios religiosos, blogs personales y sitios web de tecnología. Se identificaron problemas de sesgo, privacidad y violaciones de derechos de autor en el contenido utilizado para entrenar a estos chatbots de IA, lo que podría provocar la propagación de información incorrecta, propaganda y desinformación.

¿Tu sitio web está entrenando a la IA?

Un rastreo web podría parecer una copia de toda la internet, pero en realidad es solo una instantánea que captura contenido de una muestra de páginas web en un momento específico. El C4 comenzó como un rastreo realizado en abril de 2019 por la organización sin fines de lucro CommonCrawl, un recurso popular para los modelos de IA. CommonCrawl informó que intenta priorizar los sitios más importantes y de buena reputación, pero no intenta evitar el contenido con licencia o protegido por derechos de autor.

Los sitios webs más «usados» por las IAs para entrenarse

Según el análisis del Washington Post sobre el conjunto de datos C4 de Google, los sitios web más consultados para entrenar modelos de IA incluyen:

  1. patents.google.com: contiene texto de patentes emitidas en todo el mundo.
  2. wikipedia.org: la enciclopedia en línea gratuita.
  3. scribd.com: una biblioteca digital solo por suscripción.

Otros sitios web populares en el conjunto de datos son nytimes.com, latimes.com, theguardian.com, forbes.com y huffpost.com, que son sitios de noticias y medios de comunicación.

Cabe destacar que este análisis se centra en el conjunto de datos C4 de Google y no necesariamente representa todos los modelos de IA en la industria. Sin embargo, estos sitios web son indicativos de las fuentes comunes utilizadas para entrenar a los chatbots de IA en general.

Leer el artículo completo en The Washington Post.

Scroll al inicio