隆Imag铆nate tener un modelo de inteligencia artificial (IA) tan peque帽o que quepa en un disquete! Eso es exactamente lo que NVIDIA ha logrado con 芦Perfusion芦, un sorprendente modelo de 芦texto a imagen禄 que ocupa apenas 100KB. S铆, lo has o铆do bien, 隆es mucho menos que cualquier imagen que tomes con tu tel茅fono m贸vil! Pero, 驴por qu茅 es esto tan revolucionario y c贸mo puede cambiarlo todo?
Perfusion es un modelo de 芦texto a imagen禄 excepcionalmente ligero, con un tama帽o de tan solo 100KB, y lo m谩s asombroso es que se entrena en tan solo 4 minutos.
Perfusion es un nuevo m茅todo de personalizaci贸n de texto a imagen que ha sido presentado recientemente. A pesar de su peque帽o tama帽o, 100KB, y un tiempo de entrenamiento de aproximadamente 4 minutos, Perfusion tiene la capacidad de retratar creativamente objetos personalizados. Permite realizar cambios significativos en su apariencia, al mismo tiempo que mantiene su identidad, gracias a un novedoso mecanismo que llamamos 芦Key-Locking禄 (bloqueo de clave). Perfusion tambi茅n puede combinar conceptos aprendidos individualmente para generar una sola imagen. Finalmente, ofrece un control preciso entre la alineaci贸n visual y textual durante el proceso de inferencia, abarcando todo el frente de Pareto con un solo modelo entrenado.
Perfusion puede crear f谩cilmente im谩genes atractivas. Usualmente, con tan solo 8 semillas de entrada (seeds), es capaz de generar varias muestras de im谩genes de buena calidad.
Resumen
Los modelos de 芦texto a imagen禄 (T2I) ofrecen un nuevo nivel de flexibilidad al permitir a los usuarios guiar el proceso creativo a trav茅s del lenguaje natural. Sin embargo, la personalizaci贸n de estos modelos para alinearse con los conceptos visuales proporcionados por el usuario sigue siendo un desaf铆o. La tarea de personalizaci贸n de T2I presenta m煤ltiples desaf铆os dif铆ciles, como mantener una alta fidelidad visual mientras se permite el control creativo, combinar m煤ltiples conceptos personalizados en una sola imagen y mantener un tama帽o de modelo reducido. En este contexto, se presenta Perfusion, un m茅todo de personalizaci贸n de T2I que aborda estos desaf铆os utilizando actualizaciones din谩micas de rango 1 en el modelo subyacente de T2I. Perfusion evita el sobreajuste al introducir un nuevo mecanismo que 芦bloquea禄 las claves de atenci贸n cruzada de nuevos conceptos a su categor铆a superior. Adem谩s, se desarrolla un enfoque de rango 1 con compuertas que nos permite controlar la influencia de un concepto aprendido durante el proceso de inferencia y combinar m煤ltiples conceptos. Esto permite un equilibrio eficiente entre la fidelidad visual y la alineaci贸n textual con un solo modelo entrenado de 100KB, lo que representa una reducci贸n de cinco 贸rdenes de magnitud en comparaci贸n con el estado del arte actual. Adem谩s, Perfusion puede abarcar diferentes puntos de operaci贸n a lo largo del frente de Pareto sin necesidad de entrenamiento adicional. Finalmente, se demuestra que Perfusion supera a fuertes l铆neas de base tanto cualitativa como cuantitativamente. Es importante mencionar que el bloqueo de claves conduce a resultados novedosos en comparaci贸n con los enfoques tradicionales, permitiendo retratar interacciones de objetos personalizados de maneras nunca antes vistas, incluso en escenarios de un solo intento.
驴C贸mo funciona?
Esquema de la arquitectura (A): Una solicitud (prompt) se transforma en una secuencia de codificaciones. Cada codificaci贸n se alimenta a un conjunto de m贸dulos de atenci贸n cruzada (bloques morados) de un desenrrollador U-Net de difusi贸n (diffusion U-Net denoiser). El m贸dulo morado ampliado muestra c贸mo los caminos de Clave y Valor se condicionan seg煤n la codificaci贸n del texto. La Clave impulsa el mapa de atenci贸n, que luego modula el camino del Valor. Edici贸n de Rango-1 con compuerta (B): Arriba: El camino K est谩 bloqueado, por lo que cualquier codificaci贸n de 饾憭_Hugsy que llega a 饾憡饾憳 se mapea a la clave de la categor铆a superior 饾惥_teddy. Abajo: Cualquier codificaci贸n de 饾憭_Hugsy que llega a 饾憡饾懀 se mapea a 饾憠_Hugsy, que es aprendida. El aspecto con compuerta de esta actualizaci贸n permite aplicarla selectivamente solo a las codificaciones necesarias y proporciona medios para regular la fuerza del concepto aprendido, tal como se expresa en las im谩genes de salida.
Comparaci贸n con los m茅todos actuales
Perfusion puede ofrecer resultados m谩s animados, con una mejor coincidencia de la solicitud (prompt) y una menor susceptibilidad a los rasgos de fondo de la imagen original. Para cada concepto, mostramos ejemplos de nuestro conjunto de entrenamiento, junto con im谩genes generadas, sus textos de condicionamiento y comparaciones con baselines como Custom-Diffusion, Dreambooth y Textual-Inversion.
Composiciones
Nuestro m茅todo nos permite combinar m煤ltiples conceptos aprendidos en una sola imagen generada, utilizando una solicitud de texto. Los conceptos se aprenden de forma individual y se combinan solo durante el proceso de ejecuci贸n para producir la imagen final. Esto resulta en una visualmente atractiva exhibici贸n de interacciones de conceptos que comparamos con Custom-Diffusion. Excepto por la solicitud de 芦teddy*禄, todas las solicitudes provienen del art铆culo Custom-Diffusion y utilizan las im谩genes proporcionadas por el mismo.
Control eficiente de la alineaci贸n visual-textual
Nuestro m茅todo permite controlar el compromiso entre la fidelidad visual y la alineaci贸n textual durante la inferencia. Un alto valor de sesgo reduce el efecto del concepto, mientras que un valor bajo lo hace m谩s influyente. Con un solo modelo entrenado de 100KB y elecciones de par谩metros en tiempo de ejecuci贸n, Perfusion (en azul y cian) abarca todo el frente de Pareto.
Personalizaci贸n de un solo intento
Cuando se entrena con una sola imagen, nuestro m茅todo puede generar im谩genes con alta fidelidad visual y alineaci贸n textual.
Comparando tipos de bloqueo de claves
Presentamos 3 variaciones del bloqueo de claves:
- El bloqueo global de claves permite una mayor variabilidad visual y puede retratar con precisi贸n los matices de un objeto o actividad, como cuando se representa a un gato en una postura similar a la de un humano, leyendo un libro o vistiendo un traje de chef.
- El bloqueo local de claves tambi茅n tiene 茅xitos, pero no es tan efectivo como el bloqueo global de claves.
- Finalmente, el bloqueo de claves 芦Trained-K禄 tiene una mejor compatibilidad con las im谩genes de entrenamiento, pero sacrifica su alineaci贸n con el texto.
Transferencia sin entrenamiento a modelos afinados
Un concepto de Perfusion entrenado utilizando un modelo de difusi贸n b谩sico puede generalizarse a variantes afinadas.
Referencias: Research Nvidia y Twitter Javilop.