Machine Learning, Noticias
24/05/2024

Grounding DINO 1.5: Avances en la detección de objetos con IA

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

La empresa de investigación IDEA Research ha presentado su nuevo conjunto de modelos de inteligencia artificial, Grounding DINO 1.5, que promete revolucionar la detección y el reconocimiento de objetos en imágenes y videos sin necesidad de entrenamiento específico.

Detalles de los Modelos

Grounding DINO 1.5 incluye dos versiones distintas: Pro y Edge. La versión Pro está diseñada para una amplia variedad de tareas y escenarios, mientras que la versión Edge está optimizada para funcionar en dispositivos como smartphones, con menor consumo de energía y baja latencia.

Estos modelos fueron entrenados con más de 20 millones de imágenes cuidadosamente seleccionadas y etiquetadas, lo que les permite detectar una gran variedad de objetos del mundo real con gran precisión. En pruebas recientes, Grounding DINO 1.5 Pro alcanzó una precisión sin precedentes, identificando correctamente objetos desconocidos en un 55,7% de los casos.

Importancia del Avance

Grounding DINO 1.5 representa un paso significativo hacia la creación de sistemas de detección de objetos con IA que sean precisos y eficientes para su uso en el mundo real. Estas tecnologías tienen el potencial de mejorar la fiabilidad de la robótica, los vehículos autónomos, la vigilancia automatizada y muchas otras aplicaciones, todo ello requiriendo menos tiempo y datos para su entrenamiento.

Capacidades Avanzadas

Grounding DINO 1.5 es el modelo más avanzado de detección de objetos en un entorno abierto hasta la fecha. Basado en la sólida base de su predecesor, Grounding DINO, este nuevo modelo aumenta tanto el tamaño del modelo como su conjunto de datos de entrenamiento, mejorando su capacidad para comprender y detectar objetos visuales con mayor precisión.

Grounding DINO 1.5 Pro

Este modelo está diseñado para una amplia gama de escenarios de detección, incluyendo detección de objetos poco comunes, detección de objetos densos y alineación de frases largas de subtítulos.

Grounding DINO 1.5 Edge

Optimizado para escenarios de computación en el borde, este modelo busca una detección rápida y fiable mientras mantiene una baja latencia y un reducido consumo de energía.

Rendimiento sin Entrenamiento Previo

Grounding DINO 1.5 ha establecido nuevos récords en varios benchmarks académicos. Grounding DINO 1.5 Pro ha logrado un 54.3 AP en el benchmark COCO de transferencia sin entrenamiento previo y ha alcanzado un 55.7 AP y un 47.6 AP en los benchmarks LVIS-minival y LVIS-val, respectivamente.

Resultados de Ajuste Fino en Tareas Posteriores

El ajuste fino de Grounding DINO 1.5 ha demostrado mejorar significativamente el rendimiento. En el conjunto de datos LVIS, el modelo ha logrado un 68.1 AP en LVIS-minival y un 63.5 AP en LVIS-val, mejorando sus resultados iniciales en 12.4 y 15.9 AP respectivamente.

Visualizaciones

Las visualizaciones de las predicciones del modelo Grounding DINO 1.5 Pro demuestran efectivamente sus capacidades de detección en diversos escenarios. Estas incluyen la detección de objetos comunes, objetos poco comunes, objetos densos y alineación de frases cortas y largas.

Arquitectura del Modelo y Datos de Entrenamiento

Grounding DINO 1.5 Pro mantiene la estructura central de Grounding DINO, pero incorpora una mayor red troncal Vision Transformer. Se ha utilizado el modelo ViT-L (EVA-02) preentrenado como base debido a su rendimiento superior en tareas posteriores y su diseño puro de Transformer.

El modelo se entrenó con un conjunto de datos llamado Grounding-20M, compuesto por más de 20 millones de imágenes recopiladas de fuentes públicas. Se desarrollaron rigurosos procesos de anotación y post-procesamiento para garantizar la alta calidad de los datos recopilados.

Conclusión

Grounding DINO 1.5 marca un hito importante en la detección de objetos mediante inteligencia artificial, ofreciendo capacidades avanzadas y una eficiencia sin precedentes. Con el apoyo de un equipo talentoso y un riguroso proceso de desarrollo, este modelo está preparado para transformar diversas industrias, desde la robótica hasta la vigilancia automatizada, mejorando la precisión y la velocidad de la detección de objetos en el mundo real.

Reconocimientos

IDEA Research agradece a todos los involucrados en el proyecto Grounding DINO 1.5, incluyendo a Wei Liu, Qin Liu, Xiaohui Wang, Yuanhao Zhu, Ce Feng, Jiongrong Fan, Weiqiang Hu, Zhiqiang Li, Xinyi Ruan, Yinuo Chen y Zijun Deng, por su dedicación y esfuerzo en el desarrollo y pruebas del modelo.

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Alan Sonny

Escribo sobre inteligencia artificial, robótica y tecnología y sigo la actualidad y notas del sector.

Últimos artículos

Tesla presenta a Optimus: el robot humanoide capaz de navegar terrenos difíciles

China apunta a superar a Tesla con su avance en robots humanoides

Tesla revoluciona la visión de los robots autónomos con un nuevo sistema basado en IA

Accionistas de Tesla demandan a Elon Musk por desviar recursos a su startup xAI

Elon Musk redefine a Tesla: Más que autos, una empresa de IA y robótica

Artículos relacionados

OpenAI lanza «OpenAI for Countries»: una apuesta estratégica para expandir la infraestructura de inteligencia artificial bajo valores democráticos

Arquitectos De Plataformas De IA: Uniendo Visión Empresarial Y Ejecución Técnica Según Rama Akkiraju De NVIDIA

Meta Intensifica Esfuerzos Contra Estafas de Inversión y Pagos en India

Cadence Taps NVIDIA Blackwell to Accelerate AI-Driven Engineering Design and Scientific Simulation

NVIDIA se Alía con Cadence para Potenciar el Diseño de Ingeniería y Simulaciones Científicas Impulsadas por IA

Elena Digital López

Cómo Deutsche Bahn Redefine la Predicción Usando Modelos Chronos – Ahora Disponible en el Mercado de Amazon Bedrock

Apriel Nemotron 15B: el nuevo modelo de IA empresarial de ServiceNow y NVIDIA que redefine la productividad

Elena Digital López

Cómo La IA Está Transformando La Modelización Financiera Y La Predicción De Ventas En La Tecnología Empresarial

Elena Digital López

Optimización del Rendimiento y Calidad de Salida de los Modelos de Lenguaje Grandes