Japón declara que entrenar LLMs no viola el copyright

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

El gobierno japonés ha fijado su posición sobre una de las disputas más activas en torno a la inteligencia artificial: el entrenamiento de modelos de lenguaje a gran escala (LLM, por sus siglas en inglés) con datos protegidos por derechos de autor no constituye infracción. Keiko Nagaoka, ministra de Educación, Cultura, Deportes, Ciencia y Tecnología, lo resumió con una frase que ya circula en foros tech de todo el mundo: «aprender no es robar».

La declaración, hecha pública en junio de 2023, convierte a Japón en el primer país con una postura oficial clara sobre el uso de datos en el entrenamiento de IA. La política abarca todos los contenidos sin distinción de origen, propósito o titularidad: tanto datos de dominio público como obras protegidas pueden usarse en ese proceso, y el fin comercial o no comercial del modelo resultante no cambia la ecuación.

Yann LeCun, director de IA en Meta, aplaudió la decisión abiertamente. Su argumento: «el principio rector debería ser maximizar el bien público, no maximizar el poder de los propietarios de contenido». La postura no es nueva en él, pero el respaldo de Tokio le da peso político que el debate técnico no tenía por sí solo.

Japan has become a machine learning paradise. https://t.co/uUWMvRmULX
— Yann LeCun (@ylecun) June 1, 2023

El contexto: Japón quiere construir su propio ChatGPT

La decisión no llega sola. El primer ministro Fumio Kishida lleva meses reunido con expertos del sector para valorar los riesgos y el potencial de la IA generativa, con el objetivo declarado de impulsar el desarrollo de un chatbot de producción nacional en el menor tiempo posible. La exención de copyright encaja en esa estrategia: abarata el coste de obtener datos de entrenamiento y elimina la incertidumbre legal para los laboratorios que consideren instalarse en el país.

Sam Altman, consejero delegado de OpenAI, visitó Tokio en esas fechas para reunirse con Kishida y explorar la expansión de las operaciones de la compañía en Japón. La visita se produjo pese a que la Comisión de Protección de Información Personal japonesa había advertido a OpenAI de que limitase la recopilación de datos sensibles en sus sistemas de aprendizaje automático.

Un enfoque diferente al de Europa

El contraste con Europa es notable. Mientras Tokio elimina barreras, Bruselas lleva meses construyéndolas. La Unión Europea trabaja en un marco regulatorio que obliga a los desarrolladores de modelos de IA a declarar los datos de entrenamiento utilizados y a respetar las reservas de derechos que establezcan los titulares de contenido. El debate en el Senado estadounidense sigue una lógica similar, con propuestas que exigen atribuir a los creadores originales el uso de su obra en los conjuntos de datos.

Puedes ver cómo la UE estructura ese marco en el artículo sobre la nueva Oficina de IA europea, el órgano que supervisará el cumplimiento del AI Act con 140 miembros iniciales.

La oposición: artistas de anime y diseñadores gráficos

No todos en Japón celebran la medida. Los creadores de anime y arte gráfico temen que la exención les deje sin herramientas legales para proteger su trabajo frente al scraping masivo. Los modelos de IA generativa de imagen llevan tiempo alimentándose de ilustraciones japonesas publicadas en plataformas como Pixiv, y la nueva política les deja con pocas opciones para reclamar.

Del lado opuesto, académicos y directivos de grandes empresas ven en la regulación relajada una ventaja competitiva. Si los laboratorios japoneses pueden entrenar con cualquier dato sin tramitar licencias, el coste y el tiempo de desarrollo se reducen frente a competidores en jurisdicciones más restrictivas.

El debate sobre el impacto legal de la IA en el sector jurídico y empresarial también avanza en España, donde bufetes y consultoras empiezan a revisar cómo se aplican las normas de propiedad intelectual a los modelos generativos.

Preguntas frecuentes

¿Qué datos puede usar la IA en Japón para entrenarse?

Cualquier dato, sin restricciones por tipo de contenido, propósito (comercial o no comercial) o fuente. La política no distingue entre obras protegidas por derechos de autor y datos de dominio público.

¿Qué diferencia hay entre el enfoque japonés y el europeo?

Japón exime completamente el entrenamiento de LLMs de las restricciones de copyright. La UE, por el contrario, obliga a declarar las fuentes de datos y respetar las reservas de derechos de los titulares. Son los dos extremos del debate regulatorio actual.

¿Por qué Yann LeCun apoyó la decisión japonesa?

LeCun argumentó que el principio rector debe ser el bien público, no la protección del poder de los propietarios de contenido. Para el director de IA de Meta, imponer restricciones de copyright al entrenamiento frenaría el desarrollo tecnológico sin beneficio claro para la sociedad.

¿Qué colectivos se oponen en Japón?

Principalmente los artistas del sector del anime y los diseñadores gráficos, cuyas obras han sido usadas para entrenar modelos de IA generativa de imagen. Temen que la exención legal les deje sin recurso jurídico ante el scraping de sus creaciones.

¿Tiene OpenAI presencia en Japón?

Sí. Sam Altman visitó Japón para reunirse con el primer ministro Kishida y explorar la expansión de las operaciones de OpenAI en el país, aunque el organismo de protección de datos japonés había pedido a la empresa que limitase la recopilación de datos sensibles en sus sistemas.