El equipo de investigación compuesto por Haotian Liu, Chunyuan Li, Qingyang Wu y Yong Jae Lee de las universidades de Wisconsin-Madison, Microsoft Research y Columbia University, ha presentado un nuevo modelo llamado LLaVA (Large Language and Vision Assistant). Esta novedosa herramienta promete revolucionar el ámbito de la inteligencia artificial al fusionar capacidades de visión y lenguaje en un solo sistema.
Resumen del Estudio
El afán por mejorar las habilidades de los modelos de lenguaje grande (LLM) ha llevado a la creación de técnicas como el Instruction tuning. Aunque ha mostrado resultados positivos en el ámbito lingüístico, su aplicación en el campo multimodal sigue siendo una incógnita.
Los investigadores han presentado una técnica que utiliza el modelo GPT-4 enfocado sólo en lenguaje para generar datos multimodales de instrucciones, dando como resultado LLaVA. Este modelo combina un codificador de visión con un LLM, estableciendo un nuevo estándar de precisión en Science QA con un 92.53%.
Detalles del Modelo LLaVA
LLaVA conecta el codificador visual CLIP ViT-L/14 con el modelo de lenguaje grande Vicuna mediante una matriz de proyección. El proceso de entrenamiento se divide en dos etapas: alineación de características y ajuste final.
El desempeño de LLaVA ha sido sobresaliente, logrando un 85.1% de puntuación relativa en comparación con GPT-4 en un conjunto de datos sintéticos multimodales.
Aplicaciones Prácticas
Se han presentado ejemplos de cómo LLaVA puede interactuar y razonar visualmente. En uno de los ejemplos, al preguntarle acerca de un pintor, el modelo identifica con precisión a la Mona Lisa y proporciona detalles sobre la obra y su artista, Leonardo da Vinci.
Contribución Abierta
El equipo ha puesto a disposición del público los datos generados por GPT-4, el modelo y el código base, reafirmando el compromiso de la comunidad científica con el avance compartido del conocimiento.
Reconocimientos y Licencias
Los investigadores agradecen al equipo de LLaMA por proporcionar acceso a sus modelos y proyectos de código abierto. Sin embargo, es importante mencionar que el uso de los datos, código y checkpoint está restringido a la investigación y sigue las licencias y acuerdos de CLIP, LLaMA, Vicuna y GPT-4.
Con la creación de LLaVA, el campo de la inteligencia artificial multimodal se prepara para una nueva era de capacidades mejoradas y aplicaciones prácticas más avanzadas. Es evidente que la fusión de visión y lenguaje tiene un potencial inmenso, y modelos como LLaVA están en la vanguardia de esta revolución.
Acceso a la web oficial de LLaVA y a un demostración online del modelo de visión.