Qué datos usa OpenAI para entrenar a ChatGPT

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

ChatGPT aprende de texto, recopilado de fuentes muy distintas y procesado durante semanas en clústeres de GPU. OpenAI no ha publicado la lista completa de conjuntos de datos usados para entrenar a ChatGPT, pero la información disponible permite entender bien de dónde viene la mayor parte del conocimiento del modelo.

Las fuentes principales de entrenamiento

Common Crawl es la base. Es un rastreo web masivo realizado por la organización sin ánimo de lucro homónima, que indexa miles de millones de páginas desde 2011. El conjunto filtrado C4 (Colossal Clean Crawled Corpus) es la versión procesada que usan Google y otros para entrenar LLM. El análisis del Washington Post sobre el dataset C4 detalla qué sitios dominan este corpus y en qué proporción.

Wikipedia está presente en prácticamente todos los conjuntos de entrenamiento de LLM. Ofrece texto estructurado y enciclopédico en cientos de idiomas, lo que ayuda al modelo a construir representaciones semánticas densas sobre miles de temas.

Books1 y Books2 son conjuntos propios de OpenAI. Books1 se construyó con libros disponibles en webs de autoeditores. Books2 incluye libros comerciales, y su origen ha generado demandas legales por parte de autores que alegan que sus obras se usaron sin permiso ni compensación.

WebText es otro conjunto propio, formado por texto extraído de páginas enlazadas desde Reddit con puntuación alta. La lógica es que si muchas personas comparten y valoran un enlace, el texto del destino suele tener cierta calidad. WebText2 amplió ese enfoque con un corpus más grande.

Artículos académicos y código completan el cuadro. OpenAI ha reconocido el uso de arXiv para ciencia y matemáticas, y de repositorios públicos como GitHub para mejorar las capacidades de programación, algo especialmente visible en la arquitectura GPT-4.

El proceso de filtrado

Los datos brutos de Common Crawl no se usan tal cual. Pasan por varios filtros: eliminación de duplicados, clasificadores de calidad de texto, detección de idioma y filtros de seguridad para reducir contenido dañino. Aun así, los sesgos no desaparecen, porque ningún filtro puede eliminar todos los matices ideológicos o culturales presentes en el texto de origen.

El preentrenamiento es solo el primer paso. Después viene el ajuste fino supervisado con ejemplos etiquetados por personas y el proceso RLHF (Reinforcement Learning from Human Feedback, aprendizaje por refuerzo con retroalimentación humana), que enseña al modelo qué tipo de respuestas prefieren los evaluadores. Ese proceso convierte un LLM genérico en un asistente conversacional como ChatGPT.

Fecha de corte y actualización

ChatGPT tiene una fecha de corte de conocimiento: no sabe nada de lo ocurrido después de esa fecha si no se le proporciona el contexto directamente. En la versión original de GPT-3.5, el corte era septiembre de 2021. Con la navegación web activada, el modelo puede consultar información más reciente en tiempo real, pero eso es un complemento al entrenamiento base, no un reemplazo.

El debate legal sobre el copyright

El uso de contenido protegido por derechos de autor para entrenar modelos de IA ha generado una ola de demandas en EE. UU. y Europa. Authors Guild, el New York Times y varios escritores han presentado acciones contra OpenAI y Microsoft alegando que el entrenamiento con sus obras sin permiso ni compensación infringe el copyright. OpenAI defiende que el proceso cae bajo la doctrina del uso justo (fair use), pero los tribunales aún no han dado una respuesta definitiva. Lo que decidan marcará cómo los próximos modelos obtienen sus datos de entrenamiento.

Preguntas frecuentes

¿ChatGPT usa mis conversaciones para entrenarse?

OpenAI usaba las conversaciones por defecto para mejorar los modelos, aunque desde 2023 añadió una opción para desactivar esa recopilación. Los usuarios de ChatGPT Plus y Enterprise tienen más control sobre esto en la configuración de privacidad.

¿Son legales los datos usados para entrenar a ChatGPT?

Es un debate legal abierto. Varias demandas cuestionan si el uso de obras con derechos de autor para entrenar modelos cae bajo el fair use en EE. UU. Los tribunales aún no han dado una respuesta definitiva.

¿Puedo saber si mi web formó parte del entrenamiento?

No directamente. OpenAI no ofrece herramienta para comprobarlo. Si tu sitio era público antes de la fecha de corte y estaba indexado en Common Crawl, es probable que haya formado parte del corpus.

¿Cuántos datos necesita ChatGPT para funcionar?

GPT-3 se entrenó con unos 570 GB de texto filtrado procedente de más de 400.000 millones de tokens. GPT-4 usa un corpus mayor, pero OpenAI no ha publicado las cifras exactas.

¿Cómo afectan los datos de entrenamiento a la calidad de ChatGPT?

La calidad y diversidad del corpus determinan qué temas maneja bien el modelo y en qué idiomas. Un dataset sesgado hacia el inglés y fuentes occidentales hace que el modelo rinda mejor en esos contextos y peor en otros. Los filtros de calidad y el RLHF matizan el resultado, pero no eliminan los sesgos del corpus base.