Gigantes tecnológicos entrenan IA con videos de YouTube sin consentimiento

Una nueva investigación realizada por Proof News ha revelado que grandes empresas tecnológicas, entre ellas Apple, Anthropic, Nvidia y Salesforce, han utilizado contenido de más de 170.000 videos de YouTube para entrenar sus modelos de inteligencia artificial sin el consentimiento de los creadores.

Uso de Subtítulos de YouTube

El conjunto de datos, denominado “YouTube Subtitles”, contiene transcripciones de más de 48.000 canales, que incluyen a creadores populares, medios de comunicación, canales educativos y más. Esta recopilación fue realizada por la organización sin fines de lucro EleutherAI como parte de una colección más grande llamada ‘The Pile’, destinada a proporcionar materiales de entrenamiento para desarrolladores y académicos.

Falta de Consentimiento y Violación de Términos de Servicio

Los creadores de contenido no estaban al tanto de que su material había sido utilizado para entrenar modelos de IA, lo cual está en contra de los Términos de Servicio de YouTube que prohíben el uso de contenido sin permiso. Apple, por ejemplo, supuestamente utilizó este conjunto de datos para entrenar OpenELM, un modelo relacionado con nuevas características de IA para iPhones y MacBooks.

Implicaciones Éticas y Morales

Aunque el uso de estos transcripciones no está generando las mejores reacciones entre los creadores, hasta ahora no se han observado muchas consecuencias legales significativas para las empresas involucradas en estos casos. Dado que este conjunto de datos también es público a través de EleutherAI, es difícil prever algo más que una mala publicidad derivada de este informe, a pesar de las serias implicaciones éticas y morales que plantea.

Declaraciones y Repercusiones

La falta de transparencia y consentimiento en el uso de estos datos ha generado preocupación entre los creadores y el público en general. Los creadores de contenido invierten tiempo y recursos en producir material original, y el hecho de que este material se use sin su conocimiento para entrenar modelos de IA plantea serias dudas sobre la privacidad y la propiedad intelectual.

Un portavoz de EleutherAI explicó que «la intención de ‘The Pile’ es proporcionar recursos accesibles para la comunidad investigadora y desarrolladora, pero reconocemos la necesidad de un debate ético y legal más amplio sobre el uso de datos públicos en la IA».

Conclusión

Este caso destaca la creciente tensión entre la innovación tecnológica y la ética en el uso de datos. A medida que la inteligencia artificial continúa avanzando, es crucial que las empresas tecnológicas establezcan prácticas transparentes y respetuosas con los derechos de los creadores de contenido. La falta de consentimiento y la posible violación de los términos de servicio de YouTube subrayan la necesidad urgente de regulaciones más estrictas y un diálogo continuo sobre la ética en la inteligencia artificial.

Scroll al inicio