Nvidia acusada de recopilar millones de videos diarios para entrenar su IA

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Nvidia está enfrentando serias acusaciones por la supuesta recopilación masiva de videos en línea para entrenar sus modelos de inteligencia artificial (IA). Según informes recientes, la compañía habría descargado millones de videos de diversas fuentes para mejorar sus productos, entre ellos el generador de mundos 3D Omniverse, los sistemas de vehículos autónomos y el generador de avatares Digital Humans.

La acusación surge a partir de información proporcionada por un ex empleado anónimo de Nvidia a 404 Media. El informante asegura que varios empleados fueron instruidos para descargar y usar estos videos en el entrenamiento de los sistemas de IA de la empresa. A pesar de las preocupaciones sobre la legalidad y la ética de este enfoque, se afirma que los directores de proyecto en Nvidia han garantizado que la recopilación de datos cuenta con la aprobación ejecutiva necesaria. Ming-Yu Liu, vicepresidente de Investigación en Nvidia, habría declarado en respuesta a una pregunta sobre el asunto: “Esta es una decisión ejecutiva. Tenemos una aprobación general para todos los datos.”

La noticia no es un caso aislado en el mundo de la tecnología. Empresas como OpenAI, Stability AI y Midjourney han enfrentado demandas por prácticas similares de recopilación de datos. Nvidia, conocida por su liderazgo en el suministro de chips para centros de datos de IA, ahora parece estar expandiendo su enfoque hacia el procesamiento de datos para crear modelos fundamentales de IA que otras empresas puedan utilizar.

Liu mencionó en un correo electrónico interno que están en la fase final de la implementación de un sistema de procesamiento de datos de video, con el objetivo de generar datos de entrenamiento equivalentes a una vida humana de experiencia visual por día. Esta iniciativa ha llevado a Nvidia a utilizar una amplia gama de videos, desde contenido disponible públicamente y datos con licencia para investigación no comercial, hasta videos de plataformas como YouTube y Netflix. Se ha especulado incluso sobre el uso de tecnología de captura de pantalla para registrar contenido de Netflix, aunque esto no ha sido confirmado oficialmente.

El equipo de Nvidia también está considerando la incorporación de videos de juegos en su entrenamiento, colaborando potencialmente con el equipo de GeForce Now. Sin embargo, Jim Fan, científico investigador senior en Nvidia, señaló que aún no tienen los datos necesarios debido a desafíos en la infraestructura y la regulación, pero planean añadir datos procesados de GeForce Now en cuanto estén disponibles.

El proyecto de IA, conocido como Cosmos, comenzó en febrero de 2024. Según 404 Media, para marzo se habían descargado 100,000 videos y, para mayo, se habían compilado 38.5 millones de URLs, de las cuales casi el 40% correspondían a contenido cinematográfico.

El CEO de Nvidia, Jensen Huang, comentó sobre el proyecto, destacando la importancia de construir modelos fundamentales de video y ofreciendo un pipeline acelerado para su desarrollo. Sin embargo, la falta de legislación específica sobre el uso de datos para el entrenamiento de IA ha creado un área legal incierta, con legisladores estadounidenses presentando proyectos de ley como el AI Foundation Model Transparency Act y el Generative AI Copyright Disclosure Act para abordar estos problemas.

Mientras las leyes aún están en desarrollo, la industria de la tecnología continúa adaptándose y buscando formas de aprovechar los datos en línea para mantenerse competitiva.

Vía: Toms hardware