Amazon Web Services (AWS) ha lanzado recientemente dos enfoques innovadores para extraer información de datos multimodales, como texto, imágenes y gráficos. En el primer enfoque, denominado «embed primero, inferir después», se utiliza el modelo de Amazon Titan Multimodal Embeddings para convertir las diapositivas de una presentación en embeddings vectoriales. Estos se almacenan en una base de datos vectorial, permitiendo al modelo Large Language-and-Vision Assistant (LLaVA 1.5-7b) generar respuestas textuales basadas en las diapositivas más similares recuperadas.
El segundo enfoque, denominado «inferir primero, embed después», emplea el modelo Claude 3 Sonnet, desarrollado por Anthropic y disponible en Amazon Bedrock. Este enfoque genera descripciones textuales para cada diapositiva, las convierte en embeddings y las almacena en una base de datos. El mismo modelo se encarga de generar respuestas a las preguntas de los usuarios tomando como base las descripciones más relevantes de esta base de datos.
Ambos enfoques han sido evaluados con SlideVQA, un conjunto de datos de preguntas y respuestas visuales sobre documentos, donde lograron una precisión del 50% o menor. En cuanto a costos, el enfoque de «embed primero, inferir después» tiene un costo de $0.00224 por pregunta mientras que el segundo enfoque cuesta $0.02108, debido a los cargos por procesamiento en la nube de AWS.
La elección entre estos enfoques depende de las necesidades específicas del tipo de datos y del contenido que se esté analizando. AWS destaca la posibilidad de mejorar la recuperación de información mediante búsquedas híbridas y filtros. Además, el código de ambos enfoques está disponible en GitHub, permitiendo a los usuarios realizar sus propias pruebas y adaptaciones según sus requerimientos organizativos.
Con la continua evolución de la inteligencia artificial generativa, AWS se compromete a seguir explorando y mejorando técnicas para optimizar la extracción de información a partir de datos multimodales.