Un equipo de investigadores de la Universidad de Wisconsin-Madison, Microsoft Research y Columbia University ha presentado LLaVA (Large Language and Vision Assistant, o Asistente de Gran Lenguaje y Visión), un modelo que conecta un codificador visual con un LLM para responder preguntas sobre imágenes con un nivel de precisión que hasta ahora solo alcanzaban sistemas propietarios como GPT-4. El trabajo, publicado en octubre de 2023, fue obra de Haotian Liu, Chunyuan Li, Qingyang Wu y Yong Jae Lee.
Por qué LLaVA es diferente
El instruction tuning, la técnica de afinar modelos de lenguaje con instrucciones estructuradas, había demostrado buenos resultados en texto puro. El problema era que llevarla al terreno multimodal, donde hay que combinar imagen y texto, requería datos etiquetados que no exísten en cantidad suficiente. El equipo de LLaVA resolvió eso de una forma ingeniosa: usó GPT-4 en modo solo texto para generar datos multimodales sintéticos que sirvieran de entrenamiento.
El resultado es una arquitectura que conecta el codificador visual CLIP ViT-L/14 con el modelo de lenguaje Vicuna a través de una matriz de proyección. El entrenamiento tiene dos fases: primero se alinean las características visuales con el espacio del lenguaje, y después se hace un ajuste fino completo con los datos de instrucción generados.
Resultados y benchmarks
Los números son concretos. En Science QA, un conjunto de pruebas de preguntas y respuestas científicas que incluye imágenes, LLaVA alcanzó un 92,53% de precisión, entonces el mejor resultado registrado en ese benchmark. En una evaluación propia del equipo con datos sintéticos multimodales, el modelo obtuvo una puntuación relativa de 85,1% frente a GPT-4, lo que lo situaba muy por encima de otros sistemas de la época en razonamiento visual.
Para que se entienda la brecha con la generación anterior: los modelos multimodales disponibles antes de LLaVA dependían de pipelines más complejos, con componentes separados para visión y para lenguaje que no se comunicaban de forma fluida. Aquí, la proyección lineal entre CLIP y Vicuna es el puente que lo simplifica todo.
Aplicaciones prácticas demostradas
El equipo publicó ejemplos de interacción que muestran bien el rango del modelo. Dado que una imagen de la Mona Lisa le preguntaran sobre el cuadro, LLaVA identificaba la obra con precisión e informaba sobre Leonardo da Vinci, la fecha de creación y el museo donde se conserva. Más interesante aún es el razonamiento visual más abstracto: el modelo puede responder preguntas sobre la relación espacial entre objetos o describir escenas complejas con coherencia.
Este tipo de capacidad es la base de lo que hoy se llama modelos multimodales de propósito general, una línea en la que ahora compiten actores como MiniMax con su modelo M3, que mezcla código, ventana de contexto de 1M de tokens y bajo coste en una sola arquitectura.
Código y datos abiertos
Todo el trabajo es público: los datos generados por GPT-4, los pesos del modelo y el código base están disponibles en el repositorio del proyecto. Eso sí, con restricciones: el uso está limitado a investigación y sujeto a las licencias de CLIP, LLaMA, Vicuna y GPT-4, lo que en la práctica excluye usos comerciales directos sin más trabajo.
El equipo reconoce también las limitaciones del modelo, sobre todo en comprensión de texto dentro de imágenes y en razonamiento espacial fino, dos áreas que los sistemas multimodales posteriores, incluido GPT-4V, han trabajado con más intensidad. El contexto de la época también importa: cuando salió LLaVA, compañías como Anthropic todavía estaban lejos de ofrecer multimodalidad en sus modelos públicos.
Acceso al proyecto
La web oficial del proyecto está en llava-vl.github.io y el equipo publicó en su momento una demo online del modelo de visión.
Preguntas frecuentes
¿Qué significa LLaVA?
LLaVA son las siglas de Large Language and Vision Assistant, es decir, asistente de gran modelo de lenguaje y visión. El nombre refleja su arquitectura: un LLM ampliado con capacidad visual.
¿Qué modelos usa internamente LLaVA?
Combina el codificador visual CLIP ViT-L/14 de OpenAI con el modelo de lenguaje Vicuna, derivado de LLaMA. La conexión entre ambos se hace mediante una matriz de proyección lineal.
¿Qué es Science QA y qué puntuación logró LLaVA?
Science QA es un conjunto de pruebas de preguntas y respuestas científicas con imágenes. LLaVA logró un 92,53% de precisión, el mejor resultado publicado en ese benchmark en el momento de su publicación.
¿Puedo usar LLaVA en proyectos comerciales?
No directamente. El uso está restringido a investigación y está sujeto a las licencias de CLIP, LLaMA, Vicuna y GPT-4, que en la práctica excluyen usos comerciales sin trabajo adicional de licenciamiento.
¿Qué limitaciones tiene LLaVA?
El modelo tiene dificultades con texto incrustado en imágenes (OCR visual) y con razonamiento espacial muy fino. También depende de la calidad de los datos sintéticos generados por GPT-4 para el instruction tuning multimodal.












