LAION: la red open source que construye datos para la IA

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

LAION (Large-scale Artificial Intelligence Open Network) es una organización sin ánimo de lucro con sede en Alemania cuya actividad se centra en construir la mayor base de datos pública disponible para entrenar sistemas de IA. No desarrolla modelos para usuarios finales: trabaja en los cimientos, en conjuntos de datos masivos, herramientas de procesamiento y modelos base que investigadores y empresas usan para entrenar los suyos.

El impacto de su trabajo es difícil de exagerar. Stable Diffusion, el generador de imagen de código abierto más extendido, se entrenó sobre LAION-5B. CLIP, el modelo de comprensión visual de OpenAI que relaciona texto e imagen, tiene varias implementaciones ampliadas en proyectos de LAION. Sin esos datos, buena parte de la investigación en IA generativa de los últimos años habría tardado mucho más, o habría quedado directamente fuera del alcance de grupos académicos con presupuestos ajustados.

Los principales datasets de LAION

Los datos de LAION se construyen rastreando la web pública y filtrando pares de texto e imagen con modelos CLIP, que miden la coherencia entre el texto alternativo de una imagen y su contenido visual. El proceso descarta pares donde el texto no describe bien la imagen, lo que mejora la calidad sin necesitar anotación humana a gran escala.

LAION-400M: 400 millones de pares texto-imagen en inglés. El primer conjunto masivo publicado por la organización, y punto de partida para los primeros generadores de imagen de acceso público.
LAION-5B: 5.850 millones de pares imagen-texto filtrados por CLIP, con índices de vecinos más cercanos, una interfaz web para explorar subconjuntos y puntuaciones de detección de marcas de agua, contenido NSFW y texto tóxico.
LAION-Coco: 600 millones de subtítulos generados con BLIP sobre imágenes del subconjunto inglés de LAION-5B, pensados para entrenar modelos de descripción de imagen.
LAION-Translated: 3.000 millones de ejemplos de LAION-5B traducidos a varios idiomas, útil para modelos multilingüe de comprensión visual.

Modelos y herramientas

Además de datasets, LAION mantiene modelos y herramientas para trabajar con ellos a escala:

CLIP H/14: versión de mayor tamaño del modelo CLIP de OpenAI, entrenada sobre LAION-5B. Útil para recuperación de imagen por texto y para filtrar datasets.
ClipCap: modelo de generación de subtítulos que combina CLIP con un modelo de lenguaje para describir imágenes en texto.
CLAP: versión de CLIP orientada a pares de audio y texto, para tareas de recuperación y clasificación de audio con lenguaje natural.
img2dataset: herramienta de línea de comandos para descargar y preprocesar grandes conjuntos de pares imagen-texto a partir de listas de URL.
Clip Retrieval: sistema de búsqueda de imagen por texto o por imagen usando embeddings de CLIP, accesible a través de API.

El código de todos estos proyectos está disponible en el repositorio de GitHub de LAION. Sulphur 2 muestra hasta dónde ha llegado el vídeo generativo local, una tecnología que no habría avanzado tan rápido sin los datos que LAION hizo accesibles.

El debate sobre derechos de autor

LAION ha estado en el centro del debate sobre los derechos de autor en el entrenamiento de IA. Sus datasets se construyen rastreando la web pública, lo que implica que contienen imágenes con copyright de artistas, fotógrafos y medios. En 2023 se presentaron varias demandas colectivas en Estados Unidos contra compañías que usaron LAION-5B para entrenar generadores de imagen.

La organización defiende que recoger datos públicos para investigación se ampara en el concepto de uso justo (fair use) bajo la legislación estadounidense, aunque reconoce que la cuestión jurídica no está resuelta. Ha publicado un proceso de opt-out para que los titulares de derechos pidan que sus imágenes no se incluyan en versiones futuras de los datasets. La IA abierta enfrenta dilemas estratégicos y legales cada vez más complejos, y el caso LAION es una de las referencias habituales en ese debate.

La detección de contenido NSFW tampoco es perfecta. En 2023, investigadores externos encontraron imágenes con contenido ilegal en subconjuntos de LAION-5B, lo que obligó a la organización a retirar temporalmente ciertos datasets para sanearlos.

Datos abiertos frente a la concentración del sector

Sin acceso a datos de entrenamiento a escala, solo las grandes compañías con recursos para licenciar contenido o rastrear la web por cuenta propia pueden desarrollar modelos competitivos. Los datasets de LAION han permitido que universidades, startups y proyectos individuales entrenen o ajusten modelos que de otra forma habrían quedado fuera de su alcance. NVIDIA optimizó Stable Diffusion 3.5 con TensorRT, reduciendo un 40 % el uso de memoria en GPUs RTX, un ejemplo de cómo los modelos entrenados sobre datos LAION siguen siendo base de desarrollos actuales.

La organización se financia mediante donaciones y subvenciones públicas de investigación. No tiene modelo de negocio comercial propio, lo que la hace dependiente de la comunidad académica y de socios institucionales. Esa dependencia es su ventaja frente a organizaciones con ánimo de lucro y, a la vez, su punto débil frente a las que cuentan con respaldo corporativo.

Preguntas frecuentes

¿Qué es LAION y para qué sirve?

LAION (Large-scale Artificial Intelligence Open Network) es una organización sin ánimo de lucro alemana que publica datasets masivos de pares imagen-texto, modelos y herramientas para entrenar sistemas de IA. Sus datos han servido de base para modelos como Stable Diffusion.

¿Qué es LAION-5B?

LAION-5B es el dataset más grande publicado por la organización, con 5.850 millones de pares imagen-texto extraídos de la web y filtrados mediante CLIP. Incluye herramientas para explorar subconjuntos y puntuaciones de detección de contenido inapropiado.

¿Stable Diffusion se entrenó con datos de LAION?

Sí. Stable Diffusion, desarrollado por Stability AI, se entrenó sobre LAION-5B, lo que lo sitúa entre los modelos de generación de imagen de mayor alcance construidos sobre datos abiertos.

¿Es legal usar datos de LAION para entrenar modelos?

La cuestión no está resuelta. LAION defiende el uso justo (fair use) para investigación bajo ley estadounidense, pero en 2023 se presentaron demandas colectivas en EE.UU. contra compañías que usaron sus datos para entrenar modelos comerciales.

¿Cómo se financia LAION?

A través de donaciones y subvenciones públicas de investigación. No tiene modelo de negocio comercial propio, lo que la hace dependiente de la comunidad científica y de financiación institucional.