Las organizaciones están constantemente en la búsqueda de formas para gestionar el enorme volumen de contenido de video y audio que almacenan, ya que suelen contener información valiosa. No obstante, la extracción de estos datos de manera rápida y precisa ha sido un reto persistente. Frente a esta problemática, ha surgido una solución innovadora que permite acelerar los procesos de revisión de video y audio, optimizando la interacción entre humanos e inteligencia artificial (IA) gracias a una cuidada experiencia de usuario.
Profesionales de distintas áreas, como el derecho, el periodismo, la creación de contenido y la medicina, se enfrentan diariamente al desafío de revisar extensas horas de grabaciones en busca de información crítica. Los métodos tradicionales, como la revisión manual o las búsquedas por palabras clave en transcripciones, no solo son ineficientes, sino que también pueden omitir información relevante debido a la falta de contexto. Aunque existen herramientas más avanzadas para resumir, están cargadas con el riesgo de «alucinaciones» o datos incorrectos, lo cual puede ser crítico en campos con alta responsabilidad como la salud o el ámbito legal.
La aplicación llamada Recorded Voice Insight Extraction Webapp, conocida como ReVIEW, presenta un enfoque innovador para hacer frente a estos retos. Facilita la colaboración entre humanos e IA, acelerando el proceso mientras asegura la precisión y fiabilidad de los resultados obtenidos. Basada en servicios como Amazon Transcribe y Amazon Bedrock, ReVIEW permite el uso de modelos de inteligencia artificial de alto rendimiento mediante una única API.
Una de las innovaciones más notables de esta aplicación es la integración de citas con marcas de tiempo. Esto permite a los usuarios no solo formular preguntas basadas en las transcripciones de los archivos, sino también identificar los momentos exactos en los que se discutió una información determinada. Este avance es posible gracias a un proceso conjunto de pre-procesamiento de transcripciones, diseño de mensajes estructurados y salida organizada de modelos de lenguaje. La experiencia del usuario se ve enriquecida, ya que las citas generadas por la IA se convierten en botones interactivos que redirigen a la sección correspondiente del video.
La funcionalidad de la aplicación permite carga de videos y el planteamiento de consultas sobre los mismos. En un ejemplo presentado, un usuario preguntó sobre las actualizaciones de un servicio de Amazon y, tras explorar las citas proporcionadas, pudo verificar la respuesta visualizando el segmento relevante del video. Este procedimiento fomenta la confianza en las respuestas generadas por la IA, permitiendo a los usuarios corroborar personalmente la información.
El flujo de trabajo de ReVIEW está compuesto por varias fases, que van desde la carga del archivo hasta el almacenamiento de transcripciones y su sincronización con bases de conocimiento, garantizando un manejo eficiente y eficaz de los datos. La estructuración clara entre la lógica del frontend y del backend mediante un API Gateway ofrece la flexibilidad necesaria para modificar el frontend conforme a los requerimientos del usuario.
Más allá de aumentar la productividad en la gestión de contenido multimedia, esta solución subraya la importancia del juicio humano en la toma de decisiones. Las organizaciones que buscan optimizar sus procesos de revisión de audio y video pueden adoptar esta aplicación de código abierto, adaptándola según sus necesidades específicas. Además, se alienta a los usuarios a aportar sus comentarios y experiencias para seguir mejorando la herramienta.