Un estudio hace público las webs que hacen inteligente a ChatGPT y otras IAs

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Un análisis realizado por un diario mundial sobre de dónde obtienen la información los chatbots de IA, como ChatGPT, para sus respuestas, revelando que estos extraen datos de millones de sitios web, sin importar su legitimidad o fiabilidad. La fuente principal de información para estos chatbots proviene del texto recopilado en internet, incluyendo sitios web de todo tipo, como ebooks, contenido bajo suscripción, páginas de contenido pirata y registros de votantes.

El análisis del Washington Post se centró en el conjunto de datos C 4 de Google, utilizado para entrenar modelos de lenguaje de gran envergadura, como el T5 de Google y el LLaMA de Facebook. Se descubrió que el conjunto de datos incluye sitios web de periodismo, entretenimiento, desarrollo de software, medicina y creación de contenido, así como sitios web conocidos por ser mercados de libros electrónicos pirateados. Además, se encontraron sitios web con preocupaciones importantes sobre la privacidad, como bases de datos de registro de votantes.

El estudio también reveló que el conjunto de datos C4 contiene información de sitios de noticias y medios, sitios religiosos, blogs personales y sitios web de tecnología. Se identificaron problemas de sesgo, privacidad y violaciones de derechos de autor en el contenido utilizado para entrenar a estos chatbots de IA, lo que podría provocar la propagación de información incorrecta, propaganda y desinformación.

¿Tu sitio web está entrenando a la IA?

Un rastreo web podría parecer una copia de toda la internet, pero en realidad es solo una instantánea que captura contenido de una muestra de páginas web en un momento específico. El C4 comenzó como un rastreo realizado en abril de 2019 por la organización sin fines de lucro CommonCrawl, un recurso popular para los modelos de IA. CommonCrawl informó que intenta priorizar los sitios más importantes y de buena reputación, pero no intenta evitar el contenido con licencia o protegido por derechos de autor.

Los sitios webs más «usados» por las IAs para entrenarse

Según el análisis del Washington Post sobre el conjunto de datos C4 de Google, los sitios web más consultados para entrenar modelos de IA incluyen:

patents.google.com: contiene texto de patentes emitidas en todo el mundo.
wikipedia.org: la enciclopedia en línea gratuita.
scribd.com: una biblioteca digital solo por suscripción.

Otros sitios web populares en el conjunto de datos son nytimes.com, latimes.com, theguardian.com, forbes.com y huffpost.com, que son sitios de noticias y medios de comunicación.

Cabe destacar que este análisis se centra en el conjunto de datos C4 de Google y no necesariamente representa todos los modelos de IA en la industria. Sin embargo, estos sitios web son indicativos de las fuentes comunes utilizadas para entrenar a los chatbots de IA en general.

Leer el artículo comple to en The Washington Post.

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Alan Sonny

Escribo sobre inteligencia artificial, robótica y tecnología y sigo la actualidad y notas del sector.

Un estudio hace público las webs que hacen inteligente a ChatGPT y otras IAs

¿Tu sitio web está entrenando a la IA?

Los sitios webs más «usados» por las IAs para entrenarse

Alan Sonny

Últimos artículos

Tesla desmantela su equipo Dojo y abandona el desarrollo de chips propios de IA para apoyarse en NVIDIA y Samsung

Tesla presenta a Optimus: el robot humanoide capaz de navegar terrenos difíciles

Tesla presenta el Robotaxi: el futuro del transporte autónomo a precio accesible

China apunta a superar a Tesla con su avance en robots humanoides

Tesla revoluciona la visión de los robots autónomos con un nuevo sistema basado en IA

Artículos relacionados

NVIDIA CEO Describe La Computación Como La ‘Infraestructura Fundamental’ De La Humanidad

Optimización de Operaciones de IA con la Arquitectura de Referencia del Gateway de IA Generativa Multiservicio

Google Antigravity: el editor de código agéntico con Gemini 3 Pro, Claude 4.5 y GPT-OSS integrado

Gartner alerta: los “puntos ciegos” de la IA generativa que pueden hundir los proyectos de las empresas

Cómo Las Gafas De IA Están Empoderando A Las Personas Con Discapacidades

NVIDIA Anuncia Próximo Evento para la Comunidad Financiera

Jensen Huang (NVIDIA): «La verdadera batalla de la IA no es entre empresas, sino entre equipos»

Microsoft, NVIDIA y Anthropic sellan una alianza multimillonaria para dominar la nube de la IA

Un estudio hace público las webs que hacen inteligente a ChatGPT y otras IAs

¿Tu sitio web está entrenando a la IA?

Los sitios webs más «usados» por las IAs para entrenarse

Alan Sonny

Últimos artículos

Artículos relacionados

Comienza a escribir y presiona Intro para buscar