AvatarVerse genera avatares 3D desde texto con DensePose

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Un equipo de investigadores ha presentado AvatarVerse, un sistema que genera avatares 3D de alta calidad a partir de una descripción de texto y una guía de pose. La propuesta, publicada en octubre de 2023, está firmada por Huichao Zhang, Bowen Chen, Hao Yang y otros investigadores de distintas instituciones. Lo que la diferencia de trabajos anteriores es que usa un modelo de difusión 2D condicionado por señales DensePose para mantener consistencia visual entre vistas sin necesidad de datos 3D etiquetados.

Cómo funciona AvatarVerse

El sistema parte de dos entradas: una descripción en texto (por ejemplo, «una guerrera con armadura medieval de estilo realista») y una guía de pose representada como malla DensePose. Esta tecnología de Meta Research mapea el cuerpo humano en un espacio UV continuo, lo que permite transmitir información de pose 3D a través de imágenes 2D sin ambigüedad.

El modelo de difusión toma esa señal y genera vistas del avatar desde diferentes ángulos con coherencia visual. Uno de los problemas típicos en generación 3D es el llamado Problema de Janus: cuando el modelo genera la cara del personaje como si siempre mirara al frente, independientemente de la vista. AvatarVerse lo ataja al condicionar la generación con la señal DensePose, que da información explícita de orientación y volumen del cuerpo.

Síntesis progresiva de alta resolución

La segunda parte del sistema aborda la calidad final del avatar. Los métodos anteriores tendían a producir artefactos cuando se intentaba generar en alta resolución desde el principio. AvatarVerse usa una estrategia de síntesis progresiva: primero genera una versión base del avatar y luego añade detalle de forma incremental, tanto en geometría como en textura. El resultado son avatares con detalles en ropa, cabello y piel que resisten ampliaciones sin perder coherencia.

Resultados y comparativa

Las evaluaciones cualitativas del paper y los estudios de usuarios posicionan a AvatarVerse por encima de sistemas contemporáneos en síntesis de avatares 3D con fidelidad visual alta. El sistema soporta estilos muy distintos, desde personajes realistas hasta ficticios con proporciones no humanas, sin degradación notable entre uno y otro estilo. Esto lo diferencia de propuestas previas que se especializaban en un único tipo de avatar.

El enfoque de usar un modelo de difusión 2D como base (en lugar de un pipeline 3D completo desde el inicio) reduce la complejidad computacional y aprovecha los avances en generación 2D que ha habido desde 2022. Es una estrategia que comparte filosofía con otros modelos multimodales recientes: igual que LLaVA conecta un codificador visual con un LLM mediante una proyección lineal, AvatarVerse conecta la comprensión de pose con la generación de imágenes a través de una señal intermedia.

Aplicaciones y acceso

Las aplicaciones más directas son vídeo juegos, entornos virtuales, producción cinematográfica y plataformas sociales que necesiten avatares personalizados con alta fidelidad. El proceso de generación es guíado solo por texto y pose, lo que elimina la necesidad de que el usuario tenga conocimientos de modelado 3D. La documentación y el código del proyecto están disponibles en la web oficial de AvatarVerse.

El contexto de este trabajo encaja con la tendencia más amplia de hacer accesibles las herramientas de IA generativa. Para entender mejor el trasfondo tecnológico de estos sistemas, la guía sobre cómo funcionan los LLM ofrece una introducción al tipo de arquitectura que sustenta gran parte de la generación moderna.

Preguntas frecuentes

¿Qué es AvatarVerse?

AvatarVerse es un sistema de investigación que genera avatares 3D de alta calidad a partir de una descripción de texto y una guía de pose, usando un modelo de difusión 2D condicionado por señales DensePose.

¿Qué es el Problema de Janus en generación 3D?

Es un fallo común en generación 3D donde el modelo produce la cara del personaje mirando siempre al frente, independientemente de la vista generada. AvatarVerse lo resuelve usando señales DensePose que dan información explícita de orientación del cuerpo.

¿Qué es DensePose y para qué sirve aquí?

DensePose es una tecnología de Meta Research que mapea el cuerpo humano en un espacio UV continuo, transmitiendo información de pose 3D a través de imágenes 2D. En AvatarVerse sirve como señal de control para que el modelo de difusión genere vistas consistentes del avatar desde cualquier ángulo.

¿AvatarVerse está disponible para uso comercial?

El código y la documentación son públicos, pero el uso comercial depende de las licencias de los modelos base utilizados. Es un trabajo de investigación; para aplicaciones productivas hay que revisar los términos específicos del repositorio.