Yandex lanza YandexART: su red de difusión de imágenes para empresa

Yandex ha presentado YandexART, su generador de imágenes y animaciones basado en difusión en cascada, integrado en la aplicación Shedevrum y en los servicios de publicidad de Yandex Business. La red neuronal, entrenada con 330 millones de pares imagen-texto, mejora los resultados del modelo anterior en el 60% de los casos según evaluaciones internas de la compañía.

Cómo funciona YandexART

El proceso sigue el esquema de difusión en cascada: la red genera primero un borrador de baja resolución a partir del texto del usuario, luego aumenta progresivamente la resolución y añade detalles. La mejora respecto a la generación anterior de Shedevrum es visible en retratos: YandexART maneja con más precisión rostros, ojos y manos, áreas donde los modelos de difusión suelen producir artefactos.

Para mejorar la calidad, Yandex amplió su conjunto de datos de entrenamiento un 50%, hasta los 330 millones de imágenes con descripción textual. El modelo aplica tres modos de filtrado para seleccionar los resultados más adecuados y cuenta con un nuevo algoritmo de reconocimiento de texto que interpreta mejor las peticiones del usuario. El ajuste fino usa aprendizaje por refuerzo con retroalimentación humana (RLHF): un equipo revisa cientos de imágenes generadas y etiqueta cuáles son correctas, lo que ayuda al modelo a representar con más precisión animales, objetos y características concretas.

YandexART también reconoce referentes culturales: identifica lugares famosos, figuras históricas y personajes de cuentos populares de distintas regiones del mundo.

Dónde se aplica

  • Shedevrum: aplicación móvil para generar imágenes, vídeos y textos con IA. Desde su lanzamiento en abril de 2023, acumula más de 100 millones de generaciones y se ha posicionado en los primeros puestos de App Store y Google Play en Rusia. YandexART es el motor que gestiona la parte visual.
  • Yandex Business: plataforma de publicidad para pequeñas y medianas empresas en la búsqueda de Yandex, Yandex Maps y más de 55.000 sitios y aplicaciones asociados. Los usuarios pueden seleccionar imágenes generadas por YandexART al crear anuncios. El banco actual contiene unas 3.000 imágenes que cubren 650 sectores empresariales.
  • Teclado Yandex: el teclado virtual para móviles incorporará la opción de generar imágenes a partir de texto para usarlas como fondo. La función estaba prevista para finales de 2023.

Contexto: la carrera de los generadores de imágenes

YandexART llega en un momento de máxima competencia en generación de imágenes por IA. OpenAI integró DALL-E 3 en ChatGPT en septiembre de 2023, con mejoras relevantes en la comprensión de texto. Para trabajar con coherencia visual entre generaciones, existen técnicas como las semillas numéricas en DALL-E 3. Stable Diffusion, por su parte, sigue siendo la opción de referencia en código abierto para proyectos con control técnico total.

El enfoque de Yandex es distinto: mientras que DALL-E 3 y Midjourney apuntan a un mercado global, YandexART se orienta a los productos propios de Yandex y a la publicidad de pequeñas empresas en el mercado ruso. Los 330 millones de pares imagen-texto son un corpus menor que el de los modelos de OpenAI, lo que puede explicar diferencias en cobertura de estilos. Para entender cómo aprenden estos modelos desde la base, la guía sobre cómo funcionan los LLM ofrece contexto útil sobre preentrenamiento y ajuste fino.

Preguntas frecuentes

¿Qué es YandexART?

YandexART es el generador de imágenes y animaciones de Yandex, basado en difusión en cascada. Genera imágenes a partir de descripciones de texto y se integra en Shedevrum, Yandex Business y el Teclado Yandex.

¿Qué es la difusión en cascada?

La difusión en cascada es un proceso en el que el modelo genera primero una imagen de baja resolución y la refina en pasos sucesivos hasta añadir el detalle final. Es la arquitectura que usan varios generadores actuales, como el modelo Imagen de Google.

¿Puedo usar YandexART fuera de Rusia?

Shedevrum está disponible en App Store y Google Play, aunque su audiencia principal es Rusia y los países de habla rusa. Yandex Business opera principalmente en ese mercado. El acceso internacional puede estar limitado por restricciones regionales.

¿Cómo se compara con DALL-E 3 o Stable Diffusion?

YandexART tiene un corpus de entrenamiento menor (330 millones de imágenes) y está especializado en el mercado ruso y sus referentes culturales. DALL-E 3 y Stable Diffusion ofrecen mayor cobertura de estilos y más integración con herramientas creativas globales.

Fuente: Yandex

Scroll al inicio