Meta ha dado un paso adelante en el campo de la inteligencia artificial y la visión por computadora al presentar SAM (Segment Anything Model), un modelo de segmentación de imágenes avanzado y altamente flexible. La segmentación de imágenes es una tarea esencial en la visión por computadora y se utiliza en una amplia gama de aplicaciones, desde el análisis de imágenes científicas hasta la edición de fotos. Hasta ahora, los enfoques existentes requerían una gran cantidad de datos anotados manualmente y recursos para entrenar el modelo de segmentación, lo que limitaba su accesibilidad y aplicabilidad en muchos casos de uso.
SAM es una generalización de los enfoques de segmentación interactiva y automática. Es un modelo único que puede realizar tanto la segmentación interactiva como la automática. La interfaz de SAM es adaptable, lo que permite realizar una amplia variedad de tareas de segmentación simplemente diseñando el aviso adecuado para el modelo, ya sea mediante clics, cuadros, texto u otros elementos. Además, SAM se entrena en un conjunto de datos diverso y de alta calidad que incluye más de mil millones de máscaras, lo que permite que el modelo se generalice a nuevos tipos de objetos e imágenes más allá de lo que observó durante el entrenamiento.
Para construir el conjunto de datos necesario para entrenar a SAM, Meta desarrolló un motor de datos llamado SA-1B. Este motor de datos tiene tres «engranajes». El primer engranaje es la asistencia del modelo a los anotadores, como se describió anteriormente. El segundo engranaje es una combinación de anotación totalmente automática y anotación asistida, lo que aumenta la diversidad de las máscaras recopiladas. El último engranaje del motor de datos es la creación de máscaras totalmente automáticas, lo que permite que el conjunto de datos escale. El resultado final es el conjunto de datos SA-1B, que contiene más de 1.1 mil millones de máscaras de segmentación en aproximadamente 11 millones de imágenes con licencia y respetuosas de la privacidad.
Las aplicaciones potenciales de SAM son amplias y diversas. Por ejemplo, SAM podría utilizarse para comprender tanto el contenido visual como el textual de una página web, mejorar aplicaciones creativas como la extracción de regiones de imágenes para collages o edición de videos, y ayudar en el estudio científico de fenómenos naturales en la Tierra o incluso en el espacio. Además, el conjunto de datos SA-1B puede habilitar a otros investigadores para entrenar modelos de segmentación de imágenes.
Meta espera que SAM contribuya al avance de la inteligencia artificial y la visión por computadora en diversas áreas, democratizando la segmentación de imágenes y expandiendo las posibilidades para su uso en una amplia gama de aplicaciones.