Internet Archive: el fair use vigente basta para la IA

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Internet Archive presentó el 2 de noviembre de 2023 sus comentarios al Copyright Office de Estados Unidos como parte del estudio que la oficina realiza sobre la relación entre la ley de derechos de autor y la inteligencia artificial (IA) generativa. La organización sin ánimo de lucro, conocida por su labor de preservación digital y su sistema Wayback Machine, defendió una posición que choca con la de muchas empresas de medios: la legislación de fair use vigente ya es suficiente para hacer frente a los retos que plantea la IA, sin necesidad de aprobar nuevas leyes de copyright.

El Copyright Office lleva meses recibiendo aportaciones de miles de entidades —editores, estudios de cine, empresas tecnológicas, bibliotecas— que debaten si el entrenamiento de modelos de lenguaje grande (LLM) con datos protegidos por derechos de autor requiere licencias específicas o si encaja en el uso justo ya reconocido por la ley. Internet Archive se posiciona claramente en el segundo grupo.

Tres principios como guía

Los comentarios de Internet Archive se articulan en torno a tres ideas. La primera: regular la IA desde el ángulo exclusivo del copyright no basta. Según cita el documento, la Alianza de Derechos de Autor de Bibliotecas advierte que «la IA tiene el potencial de alterar muchas profesiones, no solo a los creadores individuales», y que la respuesta debe desarrollarse sobre una base económica más amplia. Crear mercados de licencias específicos para la IA podría concentrar aún más poder en las grandes tecnológicas.

El segundo principio es que cualquier nueva regulación no debe reducir el acceso del público a la información, el conocimiento y la cultura. Internet Archive recuerda que uno de los propósitos originales del copyright es precisamente expandir ese acceso, y que cualquier reforma debe evaluarse teniendo en cuenta este impacto. Las propuestas que reduzcan el acceso público deberían rechazarse o compensarse con excepciones bien definidas.

El tercero apunta a universidades, bibliotecas y otras instituciones orientadas al bien público: deben poder seguir garantizando el acceso a noticias, investigación científica y otros recursos esenciales. Según Internet Archive, una infraestructura bibliotecaria fuerte puede ayudar a mitigar algunos de los riesgos que la IA plantea para el acceso a la información, pero para eso esas instituciones también necesitan acceder a las herramientas de IA generativa que se están desarrollando.

El contexto del debate en EE.UU.

La posición de Internet Archive llega en un momento en que el debate sobre IA y copyright está especialmente activo en Estados Unidos. Varios medios de comunicación han iniciado acciones legales contra empresas como OpenAI y Microsoft, alegando que el uso de sus contenidos para entrenar modelos va más allá de lo que permite el fair use. Al otro lado del Atlántico, la UE avanzó con su propia Oficina de IA para supervisar el cumplimiento del AI Act, que incluye obligaciones de transparencia sobre los datos de entrenamiento.

Lo que está en juego es definir si el entrenamiento de un LLM con textos publicados constituye uso transformador (amparado por el fair use) o si requiere licencia previa. Los fabricantes de modelos argumentan que el proceso de aprendizaje es transformador; los titulares de derechos sostienen que la generación de texto que reproduce el estilo o contenido de sus obras causa un daño económico directo. El debate tiene implicaciones legales que el sector jurídico ya analiza con detenimiento.

Por qué pesa la posición de Internet Archive

El argumento de Internet Archive tiene peso propio porque la organización no es solo un observador externo: lleva décadas archivando contenidos web bajo el paraguas del fair use y ha sido demandada en varias ocasiones por ello. Su experiencia práctica con los límites de la ley le da una perspectiva diferente a la de las empresas tecnológicas o los medios de comunicación.

Su apuesta por no tocar el copyright y regular la IA de forma integral coincide con lo que proponen algunos académicos del derecho tecnológico, pero se aleja de las demandas de creadores y editoriales que ven en los modelos generativos una amenaza directa a sus modelos de negocio. El Copyright Office tiene ahora que sintetizar miles de comentarios contradictorios y decidir si recomienda alguna reforma legislativa al Congreso.

Preguntas frecuentes

¿Qué es el fair use y por qué importa para la IA?
El fair use es una excepción del copyright estadounidense que permite usar obras protegidas sin licencia cuando el uso es transformador, no sustituye a la obra original y no causa daño económico relevante. Internet Archive argumenta que el entrenamiento de LLM encaja en esta categoría.

¿Qué es el Copyright Office y qué hace con estos comentarios?
Es la agencia federal de EE.UU. que gestiona el registro de obras y asesora al Congreso sobre política de derechos de autor. Los comentarios recibidos se incorporan a un informe que puede derivar en recomendaciones legislativas.

¿Qué posición tienen las empresas tecnológicas en este debate?
OpenAI, Google y Meta defienden que el fair use ya las ampara. Los medios de comunicación y las editoriales piden nuevas reglas que obliguen a los fabricantes de IA a licenciar los contenidos usados en el entrenamiento.

¿Afecta este debate a Europa?
Sí, aunque el marco legal es diferente. El AI Act obliga a los proveedores de modelos de uso general a publicar un resumen de los datos de entrenamiento. La directiva europea de minado de texto y datos (DSM) incluye además excepciones con posibilidad de opt-out para los titulares de derechos.

Fuente: Internet Archive Blog