La empresa de investigación IDEA Research ha presentado su nuevo conjunto de modelos de inteligencia artificial, Grounding DINO 1.5, que promete revolucionar la detección y el reconocimiento de objetos en imágenes y videos sin necesidad de entrenamiento específico.
Detalles de los Modelos
Grounding DINO 1.5 incluye dos versiones distintas: Pro y Edge. La versión Pro está diseñada para una amplia variedad de tareas y escenarios, mientras que la versión Edge está optimizada para funcionar en dispositivos como smartphones, con menor consumo de energía y baja latencia.
Estos modelos fueron entrenados con más de 20 millones de imágenes cuidadosamente seleccionadas y etiquetadas, lo que les permite detectar una gran variedad de objetos del mundo real con gran precisión. En pruebas recientes, Grounding DINO 1.5 Pro alcanzó una precisión sin precedentes, identificando correctamente objetos desconocidos en un 55,7% de los casos.
Importancia del Avance
Grounding DINO 1.5 representa un paso significativo hacia la creación de sistemas de detección de objetos con IA que sean precisos y eficientes para su uso en el mundo real. Estas tecnologías tienen el potencial de mejorar la fiabilidad de la robótica, los vehículos autónomos, la vigilancia automatizada y muchas otras aplicaciones, todo ello requiriendo menos tiempo y datos para su entrenamiento.
Capacidades Avanzadas
Grounding DINO 1.5 es el modelo más avanzado de detección de objetos en un entorno abierto hasta la fecha. Basado en la sólida base de su predecesor, Grounding DINO, este nuevo modelo aumenta tanto el tamaño del modelo como su conjunto de datos de entrenamiento, mejorando su capacidad para comprender y detectar objetos visuales con mayor precisión.
Grounding DINO 1.5 Pro
Este modelo está diseñado para una amplia gama de escenarios de detección, incluyendo detección de objetos poco comunes, detección de objetos densos y alineación de frases largas de subtítulos.
Grounding DINO 1.5 Edge
Optimizado para escenarios de computación en el borde, este modelo busca una detección rápida y fiable mientras mantiene una baja latencia y un reducido consumo de energía.
Rendimiento sin Entrenamiento Previo
Grounding DINO 1.5 ha establecido nuevos récords en varios benchmarks académicos. Grounding DINO 1.5 Pro ha logrado un 54.3 AP en el benchmark COCO de transferencia sin entrenamiento previo y ha alcanzado un 55.7 AP y un 47.6 AP en los benchmarks LVIS-minival y LVIS-val, respectivamente.
Resultados de Ajuste Fino en Tareas Posteriores
El ajuste fino de Grounding DINO 1.5 ha demostrado mejorar significativamente el rendimiento. En el conjunto de datos LVIS, el modelo ha logrado un 68.1 AP en LVIS-minival y un 63.5 AP en LVIS-val, mejorando sus resultados iniciales en 12.4 y 15.9 AP respectivamente.
Visualizaciones
Las visualizaciones de las predicciones del modelo Grounding DINO 1.5 Pro demuestran efectivamente sus capacidades de detección en diversos escenarios. Estas incluyen la detección de objetos comunes, objetos poco comunes, objetos densos y alineación de frases cortas y largas.
Arquitectura del Modelo y Datos de Entrenamiento
Grounding DINO 1.5 Pro mantiene la estructura central de Grounding DINO, pero incorpora una mayor red troncal Vision Transformer. Se ha utilizado el modelo ViT-L (EVA-02) preentrenado como base debido a su rendimiento superior en tareas posteriores y su diseño puro de Transformer.
El modelo se entrenó con un conjunto de datos llamado Grounding-20M, compuesto por más de 20 millones de imágenes recopiladas de fuentes públicas. Se desarrollaron rigurosos procesos de anotación y post-procesamiento para garantizar la alta calidad de los datos recopilados.
Conclusión
Grounding DINO 1.5 marca un hito importante en la detección de objetos mediante inteligencia artificial, ofreciendo capacidades avanzadas y una eficiencia sin precedentes. Con el apoyo de un equipo talentoso y un riguroso proceso de desarrollo, este modelo está preparado para transformar diversas industrias, desde la robótica hasta la vigilancia automatizada, mejorando la precisión y la velocidad de la detección de objetos en el mundo real.
Reconocimientos
IDEA Research agradece a todos los involucrados en el proyecto Grounding DINO 1.5, incluyendo a Wei Liu, Qin Liu, Xiaohui Wang, Yuanhao Zhu, Ce Feng, Jiongrong Fan, Weiqiang Hu, Zhiqiang Li, Xinyi Ruan, Yinuo Chen y Zijun Deng, por su dedicación y esfuerzo en el desarrollo y pruebas del modelo.