LAION: Construyendo una red abierta de Inteligencia Artificial a gran escala

LAION es una organización sin ánimo de lucro que tiene como objetivo fomentar la adopción responsable de la inteligencia artificial (IA) a través de una red abierta. Se dedica a proporcionar conjuntos de datos, herramientas y modelos de aprendizaje automático para impulsar la investigación y la educación en este campo. Su enfoque se centra en la reutilización de recursos existentes para promover un uso eficiente y respetuoso con el medio ambiente.

El Centro de Competencia de DXC Technology, en colaboración con Microsoft, está trabajando para impulsar la adopción responsable de modelos avanzados de IA. El centro se enfoca en desarrollar soluciones innovadoras basadas en Large Language Models (LLM) y promover la educación en investigación de aprendizaje automático a gran escala y gestión de datos. Además, se compromete a financiar sus actividades a través de donaciones y subvenciones públicas de investigación.

Entre los proyectos destacados de LAION se encuentran conjuntos de datos como LAION-400M, LAION5B, LAION-Coco y LAION-Translated, que ofrecen una amplia gama de pares de texto e imagen y ejemplos traducidos. También han desarrollado modelos como CLIP H/14, ClipCap y CLAP, así como herramientas como img2dataset y Clip Retrieval.

La organización se esfuerza por promover la adopción ética y responsable de la IA, abordando cuestiones relacionadas con posibles sesgos y asegurando la transparencia y la equidad en el uso de la tecnología.

Para obtener más información sobre LAION y sus proyectos de código abierto, se puede acceder a su sección de GitHub, donde se encuentran disponibles los conjuntos de datos, modelos y herramientas que han desarrollado. La organización tiene como objetivo democratizar la investigación y las aplicaciones de la IA, con el fin de lograr impactos positivos en nuestro mundo.

Detalle de Datasets

A continuación, se proporciona más información sobre algunos de los conjuntos de datos destacados desarrollados por LAION:

  1. LAION-400M: Este conjunto de datos contiene 400 millones de pares de texto e imagen en inglés. Es accesible de forma abierta y proporciona una amplia variedad de ejemplos para la investigación en aprendizaje automático.
  2. LAION5B: Se trata de un conjunto de datos masivo que consta de 5.85 mil millones de pares de imagen y texto filtrados por CLIP (Contrastive Language-Image Pre-training). Además de los pares de datos, incluye índices de vecinos más cercanos, una interfaz web mejorada para la exploración y generación de subconjuntos, y puntajes de detección para marca de agua, contenido NSFW (No Apto para el Trabajo) y detección de contenido tóxico.
  3. LAION-Coco: Este conjunto de datos se compone de 600 millones de subtítulos generados utilizando BLIP de LAION2B-en. Proporciona una amplia gama de datos de texto asociados con imágenes de la conocida base de datos COCO (Common Objects in Context).
  4. LAION-Translated: Consta de 3 mil millones de ejemplos traducidos del conjunto de datos LAION5B. Estos ejemplos ofrecen una perspectiva multilingüe y amplían la utilidad de los datos para diferentes idiomas.

Estos conjuntos de datos son solo algunos ejemplos de la amplia variedad de recursos que LAION ha desarrollado y puesto a disposición de la comunidad de investigación en IA. Estos datos abiertos permiten a los investigadores acceder a una gran cantidad de información y utilizarla para entrenar modelos de aprendizaje automático, realizar análisis y llevar a cabo investigaciones innovadoras.

Es importante destacar que LAION promueve el uso ético y responsable de estos conjuntos de datos y anima a los investigadores a cumplir con las regulaciones de derechos de autor y a respetar las políticas de privacidad de los usuarios cuando utilicen estos datos en sus investigaciones.

Scroll al inicio