En el dinámico campo de la inteligencia artificial, un nuevo enfoque está revolucionando la manera en que los sistemas de visión por computadora interactúan con el mundo que los rodea. La inteligencia agentica, impulsada por modelos de lenguaje visual (VLMs, por sus siglas en inglés), se perfila como la solución para superar las limitaciones de las tecnologías actuales, abriendo las puertas a aplicaciones más avanzadas y precisas.
Hasta ahora, los sistemas de visión por computadora sobresalían en identificar eventos en espacios físicos, pero carecían de la capacidad para explicar en detalle esas escenas y razonar sobre posibles eventos futuros. Con los VLMs, las organizaciones ahora pueden acceder rápida y fácilmente a análisis e información clave que conectan descriptores textuales con información espacial y temporal.
Uno de los métodos para mejorar los sistemas de visión por computadora es la utilización de subtitulados densos para hacer buscable el contenido visual. A diferencia de las herramientas tradicionales de búsqueda de video que se basan en CNNs, los VLMs permiten generar subtítulos detallados que convierten contenido no estructurado en metadatos ricos y buscables, lo que facilita búsquedas visuales más precisas.
Un ejemplo de esto es UVeye, un sistema automatizado de inspección de vehículos que procesa más de 700 millones de imágenes de alta resolución al mes. Utilizando VLMs, UVeye transforma esta inmensa cantidad de datos visuales en informes de condición estructurados, detectando defectos sutiles con una precisión y confiabilidad extraordinarias. Este avance ha permitido que UVeye identifique el 96% de los defectos, en contraste con el 24% que se lograba mediante métodos manuales.
En el ámbito del marketing deportivo, Relo Metrics combina VLMs con visión por computadora para proporcionar a las marcas un entendimiento más profundo del valor de sus inversiones mediáticas. Este sistema no solo detecta logos, sino que también captura el contexto, lo que permite a las empresas como Stanley Black & Decker ajustar sus estrategias en tiempo real y optimizar el retorno de inversión.
Otro uso destacado de los VLMs es la mejora de las alertas generadas por los sistemas de visión por computadora existentes. Estos sistemas, basados en CNN, generan frecuentemente alertas binarias que pueden conducir a falsos positivos. La incorporación de VLMs permite revisar las alertas con una comprensión contextual, mejorando así la precisión y reduciendo errores costosos. En ciudades inteligentes, por ejemplo, Linker Vision utiliza VLMs para verificar alertas críticas como accidentes automovilísticos o inundaciones, mejorando la respuesta municipal en tiempo real.
La inteligencia agentica también facilita el análisis automático de escenarios complejos. Gracias a la combinación de VLMs con modelos de razonamiento y otros avances tecnológicos, estos sistemas pueden procesar consultas complejas y proporcionar respuestas más profundas y precisas. Un caso notable es el de Levatas, que desarrolla soluciones de inspección visual utilizando robots móviles y sistemas autónomos para la revisión de infraestructuras críticas, acelerando significativamente procesos que antes eran manuales y lentos.
Estas innovaciones son posibles gracias a la tecnología de NVIDIA, que potencia la inteligencia de video agentica con software y hardware avanzados. Los desarrolladores pueden integrar VLMs en aplicaciones de visión por computadora utilizando herramientas como el blueprint de búsqueda y resumen de video de NVIDIA, parte de la plataforma Metropolis de NVIDIA.
En definitiva, la inteligencia agentica ofrece un futuro donde los sistemas de visión por computadora pueden no solo ver, sino también comprender y actuar con una precisión y eficacia sin precedentes, transformando industrias y mejorando las experiencias cotidianas.
Fuente: Zona de blogs y prensa de Nvidia




