Meta acusada de entrenar su IA con contenido pirateado a través de torrents

Meta se encuentra nuevamente en el centro de una polémica tras ser acusada de utilizar contenido pirateado para entrenar su modelo de Inteligencia Artificial, Meta AI. Según documentos recientemente desclasificados por un tribunal estadounidense, la empresa habría recurrido a redes de torrents y bibliotecas digitales ilegales como LibGen para extraer material protegido por derechos de autor, una práctica que ha despertado preocupación en el ámbito legal y ético.

El caso: documentos reveladores y acusaciones de los autores

En 2023, los novelistas Richard Kadrey y Christopher Golden presentaron una demanda contra Meta, alegando que la compañía había utilizado sus obras protegidas por derechos de autor sin autorización para entrenar su modelo de lenguaje, Llama. Como parte del proceso judicial, Meta entregó documentos al Tribunal de Distrito de los Estados Unidos para el Distrito Norte de California, muchos de ellos censurados. Sin embargo, una reciente orden judicial ha obligado a hacer públicos varios de esos documentos, revelando prácticas comprometedoras.

Entre las pruebas destacadas, se encuentran conversaciones internas de empleados de Meta. En una de ellas, un ingeniero expresó su incomodidad diciendo: “Usar torrents desde un portátil corporativo no me parece correcto”. En otra, se menciona que «MZ» (en aparente referencia a Mark Zuckerberg) habría aprobado el uso de material pirateado para entrenar la IA.

LibGen y otras bibliotecas en la mira

Los documentos señalan que Meta habría recurrido a LibGen, una conocida biblioteca digital que alberga millones de libros, artículos académicos y revistas pirateadas. Creada en Rusia en 2008, LibGen ha enfrentado múltiples demandas por violaciones de derechos de autor a lo largo de los años. Además, los informes sugieren que Meta también utilizó otras bibliotecas similares para expandir el alcance de sus datos de entrenamiento.

Meta se ha defendido argumentando que su uso del contenido se basa en la doctrina del «uso justo», que permite el uso limitado de materiales protegidos bajo ciertas circunstancias, como investigación o crítica. Según la compañía, el material fue empleado únicamente para modelar estadísticamente el lenguaje y generar expresiones originales.

Reacciones legales y éticas

Los demandantes acusan a Meta de trivializar la naturaleza pirata de los conjuntos de datos utilizados, afirmando que los altos directivos, incluido el propio Zuckerberg, estaban al tanto de que se trataba de contenido ilegal. Según una moción presentada por los demandantes y recogida por Wired: “Meta ha tratado la disponibilidad pública de estos conjuntos de datos en la sombra como una excusa para justificar su uso, a pesar de saber que eran ilegales”.

Por su parte, Meta niega estas acusaciones y sostiene que ha revelado información relevante durante el proceso judicial, incluyendo el uso de LibGen, que según la empresa fue comunicado a los demandantes en julio de 2024. Sin embargo, gran parte de los documentos relacionados con este caso siguen siendo confidenciales, lo que dificulta confirmar por completo estas afirmaciones.

Un debate más amplio sobre el uso de datos en la IA

Este caso no solo expone prácticas controvertidas en el entrenamiento de modelos de IA, sino que también pone de manifiesto los desafíos legales y éticos en el uso de datos disponibles en Internet. Mientras Meta argumenta que su uso está respaldado por el «uso justo», este incidente podría sentar un precedente sobre cómo las grandes tecnológicas acceden y utilizan contenido protegido.

A medida que la inteligencia artificial avanza y los datos humanos se agotan, como reconoció recientemente Elon Musk, las empresas enfrentan una presión creciente para encontrar nuevas fuentes de información. Sin embargo, recurrir a contenido pirateado plantea serios interrogantes sobre la ética corporativa y los derechos de autor en la era de la IA.

vía: Wired y El chapuzas informático

Scroll al inicio