Casi 400 medios demandan a OpenAI y Microsoft por entrenar IA con sus noticias

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

La batalla entre medios e inteligencia artificial vuelve a subir de nivel en Estados Unidos. Un grupo de editoras que gestionan casi 400 periódicos locales y regionales ha demandado a OpenAI y Microsoft ante el Tribunal Federal del Distrito Sur de Nueva York por presunto uso no autorizado de sus contenidos para entrenar y explotar productos de IA generativa como ChatGPT y Microsoft Copilot.

La demanda, presentada el 24 de junio de 2026, acusa a ambas compañías de haber copiado, almacenado y usado artículos protegidos por derechos de autor sin permiso, sin licencia y sin compensación económica. Los demandantes sostienen además que ese contenido incluía materiales publicados tras muros de pago y que, durante el proceso, se habría eliminado información de gestión de derechos, como autores, nombres de publicación, avisos de copyright y condiciones de uso.

El caso no es una sentencia ni una prueba definitiva de culpabilidad. Es una demanda civil que recoge la versión de los editores. Pero su alcance la convierte en una de las acciones legales más relevantes contra empresas de IA por parte de la prensa local y regional estadounidense. El debate de fondo es conocido, pero cada vez más difícil de aplazar: si los modelos de IA se entrenan con contenido periodístico, ¿deben pagar por ello?

Una demanda centrada en el periodismo local

Los demandantes no son solo grandes grupos nacionales. La lista incluye editoras con publicaciones locales en decenas de estados, algunas con más de un siglo de historia. Entre ellas figuran Richner Communications, Arkansas Democrat-Gazette, The New Mexican, The Ogden Newspapers, CherryRoad Media, Community Impact Newspaper, Wick Communications y varias compañías regionales más.

La demanda presenta a estos medios como una pieza básica de la vida cívica estadounidense: cubren ayuntamientos, juntas escolares, elecciones municipales, sucesos locales, deportes escolares, obituarios, pequeños negocios y asuntos que rara vez aparecen en medios nacionales. Esa es precisamente la parte que los demandantes consideran más vulnerable. Si la IA puede absorber ese trabajo y responder al usuario sin llevar tráfico al medio original, el modelo económico de la prensa local se debilita todavía más.

Punto de la demanda	Qué alegan los editores
Contenido afectado	Cientos de miles de artículos protegidos
Medios implicados	Casi 400 cabeceras locales y regionales
Empresas demandadas	Microsoft y varias entidades de OpenAI
Productos citados	ChatGPT, Copilot, Azure OpenAI Service y otros servicios GPT
Conducta denunciada	Copia, almacenamiento, entrenamiento y posibles reproducciones
Base legal	Copyright Act y Digital Millennium Copyright Act
Reparación solicitada	Daños, restitución, medidas cautelares y retirada de copias

La acción legal insiste en que los editores sostienen sus negocios con suscripciones, publicidad y licencias de contenido. Si una herramienta de IA responde usando ese material sin atribución ni pago, el daño no se limita a una copia técnica durante el entrenamiento. También puede afectar al tráfico web, a las suscripciones, al valor de las licencias y a la capacidad de contratar periodistas.

La acusación: scraping, paywalls y eliminación de autoría

El núcleo técnico de la demanda está en el proceso de recopilación de datos. Los editores acusan a OpenAI y Microsoft de haber rastreado páginas web de forma automatizada, copiado artículos y usado esos textos para entrenar grandes modelos de lenguaje. También afirman que se habrían incluido contenidos detrás de paywalls u otras restricciones de acceso.

La demanda no se queda en el entrenamiento. Sostiene que los modelos podrían haber memorizado parte del material y reproducirlo de forma literal o casi literal ante determinados prompts. También señala el uso de sistemas de recuperación de información, conocidos como RAG, en productos que consultan contenido actualizado de la web para generar respuestas.

Uno de los puntos más delicados es la supuesta eliminación de la información de gestión de derechos de autor, conocida en el documento como CMI, por sus siglas en inglés. Los demandantes sostienen que las herramientas usadas para extraer el texto de las páginas separaban el cuerpo del artículo de elementos como el nombre del medio, el autor, el título, los avisos de copyright o las condiciones de uso. Para los editores, esa separación no es un detalle técnico menor: habría dificultado rastrear el origen del contenido y probar su uso posterior.

Concepto	Por qué importa
Scraping	Permite copiar contenido web de forma automatizada
Paywall	Añade una posible capa de acceso restringido
CMI	Identifica autoría, titularidad y condiciones de uso
Entrenamiento	Usa grandes cantidades de texto para ajustar el modelo
Memorización	Puede provocar respuestas cercanas al texto original
RAG	Recupera contenido externo en el momento de responder
Fair use	Posible defensa legal de las empresas de IA en EE. UU.

La demanda menciona análisis de datasets como OpenWebText y C4, un subconjunto filtrado de Common Crawl, para sostener que aparecen millones de tokens procedentes de webs de los editores. En el caso de C4, los demandantes afirman que las publicaciones afectadas suman más de 115 millones de tokens. Esa cifra no equivale automáticamente a una infracción probada, pero marca el terreno sobre el que se discutirá en el proceso.

Microsoft aparece como socio, no como actor secundario

La demanda no trata a Microsoft como un simple inversor. Los editores sostienen que la compañía habría tenido un papel central en la infraestructura usada para entrenar y explotar los modelos de OpenAI. El documento cita la relación entre ambas empresas, la inversión de Microsoft y el uso de modelos GPT en productos como Copilot, Bing Chat, Microsoft 365 Copilot y Azure OpenAI Service.

El razonamiento de los demandantes es claro: si Microsoft aportó infraestructura, integró los modelos en sus productos y obtuvo beneficio comercial de ellos, también debería responder por el presunto uso no autorizado de contenidos protegidos. La demanda incluye una acusación de infracción vicaria de copyright, es decir, responsabilidad por controlar, dirigir o beneficiarse de la infracción cometida por otro actor.

Esta parte del caso puede ser relevante para toda la industria. Muchas empresas tecnológicas no entrenan todos sus modelos desde cero, pero sí los integran, los distribuyen o los venden dentro de sus productos. Si los tribunales amplían la responsabilidad más allá del creador directo del modelo, el riesgo legal podría alcanzar a proveedores cloud, integradores, plataformas empresariales y distribuidores de IA.

El choque entre fair use y licencias

OpenAI ha defendido en otras ocasiones que el entrenamiento de modelos con información disponible públicamente queda amparado por el uso legítimo, conocido en Estados Unidos como fair use. Esa defensa será probablemente uno de los ejes del caso. Las empresas de IA sostienen que sus modelos no son simples repositorios de copias, sino sistemas que aprenden patrones estadísticos para generar respuestas nuevas.

Los editores plantean lo contrario: sus contenidos no habrían sido solo “leídos” por una máquina, sino copiados, procesados, almacenados y usados para crear productos comerciales multimillonarios. Además, argumentan que esos productos pueden sustituir visitas a las webs originales y competir con los propios medios en el acceso a información.

La diferencia no es menor. Si los tribunales aceptan de forma amplia el fair use para el entrenamiento de IA, las compañías tecnológicas tendrán más margen para usar contenido publicado en la web sin negociar licencias caso por caso. Si los tribunales dan la razón a los editores, el mercado de datos de entrenamiento podría cambiar por completo y abrir una etapa de acuerdos obligatorios, pagos, restricciones técnicas y mayor trazabilidad de fuentes.

Escenario legal	Posible consecuencia
Gana la tesis del fair use	Más margen para entrenar con contenido público
Gana la tesis de los editores	Más licencias y costes para entrenar modelos
Acuerdo extrajudicial	Pagos, condiciones de uso y posible acceso preferente
Sentencia parcial	Diferenciación entre entrenamiento, salida del modelo y RAG
Reglas más estrictas sobre CMI	Mayor obligación de conservar autoría y derechos

La cuestión europea podría tomar otro camino, porque el marco legal no es idéntico al estadounidense. En la UE existen reglas específicas sobre minería de textos y datos, con mecanismos de reserva de derechos. Aun así, el resultado de los grandes casos en Estados Unidos influirá en la negociación global entre medios y empresas de IA.

Por qué este caso importa más allá de OpenAI

La demanda llega en un momento en el que los medios buscan nuevas vías para cobrar por el uso de sus contenidos en sistemas de IA. Algunos grandes grupos han firmado acuerdos de licencia con empresas tecnológicas. Otros han optado por demandar. Para la prensa local, el problema es más complejo: tiene menos capacidad individual para negociar, menos margen financiero y una dependencia mayor del tráfico orgánico, las suscripciones y la publicidad local.

La IA generativa añade una presión nueva a un sector que ya venía tocado por el desplome de la publicidad impresa, la dependencia de plataformas, los cambios de Google y redes sociales, y la dificultad de convertir lectores digitales en suscriptores. Si un asistente responde directamente a la pregunta del usuario, el medio puede quedar fuera de la relación, aunque su trabajo haya servido para construir la respuesta.

Esto no significa que toda IA sea una amenaza para el periodismo. Muchas redacciones ya usan herramientas de IA para transcripción, documentación, análisis de datos, edición, traducción o apoyo a tareas internas. El conflicto está en la materia prima. La IA puede ayudar a producir periodismo, pero también puede alimentarse de periodismo ajeno sin pagar por él si no hay reglas claras.

La próxima gran negociación de internet

Durante años, la web funcionó con un acuerdo implícito: los buscadores rastreaban contenidos, enviaban tráfico y los medios aceptaban esa relación porque obtenían visibilidad. La IA generativa altera ese intercambio. El usuario puede recibir una respuesta completa sin hacer clic. La fuente puede quedar resumida, diluida o ni siquiera aparecer. Y el valor se desplaza hacia la plataforma que responde.

Ese cambio explica la dureza de las demandas. Los editores no solo reclaman dinero por el pasado. Buscan frenar un modelo en el que su contenido sirve para entrenar, actualizar y mejorar productos que luego pueden sustituir parte de su relación con el lector. Es una disputa sobre derechos de autor, pero también sobre el reparto económico de la información en la era de la IA.

El caso contra Microsoft y OpenAI tardará en resolverse, y es posible que acabe en acuerdos antes de una sentencia definitiva. Pero ya deja una señal clara: la etapa de entrenar modelos con enormes cantidades de contenido web sin explicar con precisión qué se usa, cómo se procesa y quién cobra por ello se enfrenta a una resistencia cada vez más organizada.

El periodismo local no tiene la escala de las grandes tecnológicas, pero sí tiene algo que los modelos necesitan: información original, actualizada y pegada al terreno. La pregunta es si esa información seguirá siendo una fuente barata para alimentar IA o si acabará convertida en un activo con licencia, precio y condiciones. Esa decisión no solo afectará a OpenAI y Microsoft. Afectará a todo el futuro económico de la información digital.

Preguntas frecuentes

¿Quién ha demandado a OpenAI y Microsoft?
Un grupo de editoras que gestiona casi 400 periódicos locales y regionales en Estados Unidos, entre ellas Richner Communications, Arkansas Democrat-Gazette, The New Mexican, CherryRoad Media y The Ogden Newspapers.

¿Qué acusan exactamente a las empresas de IA?
Las acusan de copiar y usar artículos protegidos para entrenar y explotar modelos de IA sin permiso ni compensación, incluidos contenidos bajo paywall, y de eliminar información de gestión de derechos de autor.

¿Qué productos aparecen en la demanda?
La demanda menciona productos basados en GPT como ChatGPT, ChatGPT Enterprise, Copilot, Azure OpenAI Service y Microsoft 365 Copilot.

¿Qué puede pasar si los editores ganan?
Podrían imponerse daños, medidas cautelares, retirada de copias de obras registradas de datasets o modelos, y una presión mucho mayor para que las empresas de IA firmen licencias con medios.

vía: computerbase.de y demanda en PDF