Stack Overflow y Reddit cobran a las IA por sus datos de entrenamiento

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Stack Overflow y Reddit anunciaron en abril de 2023 que empezarían a cobrar a empresas de inteligencia artificial por el acceso a sus datos, usados durante años para entrenar modelos de lenguaje de gran tamaño (LLMs). Los afectados directos eran OpenAI, Meta y Google, que habían aprovechado libremente estos repositorios de conocimiento colectivo para construir sistemas como GPT-4, LLaMA y Gemini sin ninguna compensación a las plataformas que los albergaban.

Stack Overflow fijó mediados de 2023 como fecha para activar los cobros. Reddit anunció restricciones similares para junio. Ambas plataformas habían visto cómo su contenido, generado por millones de usuarios durante más de una década, alimentaba modelos de IA sin que nadie les pagara nada.

Qué datos están en juego

Stack Overflow acumula más de 21 millones de preguntas y respuestas sobre programación, depuración y arquitectura de sistemas. Es, junto con GitHub, una de las fuentes más usadas para entrenar LLMs especializados en código, como GitHub Copilot o los modelos Code de OpenAI.

Reddit alberga miles de subreddits sobre ciencia, medicina, derecho, ingeniería y prácticamente cualquier otro tema. Su archivo de conversaciones en lenguaje natural lo convierte en un recurso especialmente valioso para modelos de propósito general. La compañía tenía previsto imponer tarifas a través de su API, hasta entonces gratuita para la mayoría de desarrolladores.

El problema de infraestructura que nadie quería pagar

Detrás de estos anuncios hay un problema concreto: las peticiones masivas de empresas de IA a las APIs de ambas plataformas suponen un coste de infraestructura real sin ninguna contraprestación. A medida que el entrenamiento de LLMs se industrializó, el volumen de peticiones creció hasta niveles que afectaban al rendimiento normal de las plataformas.

La News/Media Alliance, que agrupa a más de 2.200 cabeceras en Estados Unidos, se sumó al debate reclamando que los desarrolladores de IA negociaran y pagaran por el uso de sus contenidos. Esta misma tensión derivó después en demandas legales, como la que interpusieron Britannica y Merriam-Webster contra OpenAI, que reabrió la batalla legal sobre el copyright en los datos de entrenamiento.

Consecuencias para el desarrollo de LLMs

Pagar por datos que antes eran gratuitos encareció directamente los costes de desarrollo. Los laboratorios de IA ya asumían gastos enormes en computación (GPUs, energía, centros de datos) antes de entrenar un solo modelo. Añadir licencias de plataformas como Reddit o Stack Overflow alargaba los plazos para rentabilizar la inversión.

Esto también abrió camino a un mercado gris de datos de entrenamiento donde algunas empresas buscaron alternativas más baratas o directamente sin licencia, lo que generó nuevas tensiones legales. Al mismo tiempo, la restricción de acceso aceleró el interés por los datos sintéticos generados por los propios LLMs y por acuerdos directos con editoriales, una práctica que desde entonces se ha vuelto habitual en el sector.

Para las empresas de IA más pequeñas, el impacto fue especialmente notable. Sin el músculo financiero de Google o Microsoft, asumir el coste de licenciar datos de múltiples plataformas podía resultar inviable y dejaba el campo libre a los laboratorios con más recursos.

Preguntas frecuentes

¿Por qué Reddit y Stack Overflow decidieron cobrar a las empresas de IA?

Porque el acceso masivo a sus APIs generaba costes de infraestructura reales sin ninguna compensación. Con el auge de los LLMs, el volumen de peticiones creció hasta afectar al rendimiento de las plataformas para sus usuarios habituales.

¿Qué datos de Stack Overflow usan los LLMs?

Principalmente preguntas y respuestas de programación: código en múltiples lenguajes, explicaciones de errores, discusiones de arquitectura y razonamiento técnico. Son especialmente valiosos para entrenar modelos de generación de código como GitHub Copilot o Code Llama.

¿Cómo afecta esto a los desarrolladores independientes?

Las tarifas se dirigen principalmente a empresas con uso intensivo de la API. Los desarrolladores independientes con volúmenes bajos generalmente no se ven afectados, aunque las nuevas condiciones de uso pueden limitar lo que se puede hacer con los datos descargados.

¿Podría esto ralentizar el desarrollo de nuevos LLMs?

A corto plazo encareció los proyectos y alargó los plazos de rentabilización. A medio plazo aceleró la búsqueda de alternativas: datos sintéticos, acuerdos directos con editoriales y repositorios con licencias más permisivas como Common Crawl o The Pile.

¿Qué otras plataformas han seguido este camino?

La tendencia se extendió rápidamente a medios de comunicación, editoriales y otras plataformas de contenido. La News/Media Alliance ya reclamaba compensación antes de que Reddit y Stack Overflow hicieran sus anuncios. Desde entonces, los acuerdos de licencia entre empresas de IA y proveedores de contenido se han vuelto una práctica común en el sector.