Skyvern: Automatización de navegadores con IA y visión por computador

Skyvern, un innovador proyecto open-source, promete transformar la automatización de flujos de trabajo en navegadores web mediante modelos de lenguaje grandes (LLMs) y visión por computador, eliminando las limitaciones de las soluciones tradicionales.

En un panorama donde la interacción manual con sitios web puede ser tediosa y propensa a errores, Skyvern ofrece una solución eficiente y flexible. Este sistema, respaldado por una API sencilla, permite automatizar tareas complejas sin necesidad de escribir scripts personalizados o depender de selectores DOM específicos como XPath, los cuales suelen fallar ante cambios en los diseños de las páginas web.

¿Qué hace único a Skyvern?

Skyvern utiliza una combinación de LLMs, visión por computador y agentes especializados para interpretar, planificar y ejecutar acciones en tiempo real sobre sitios web. Entre sus características principales destacan:

  1. Adaptabilidad a Sitios Desconocidos: Puede operar en páginas web que nunca antes ha visto, mapeando elementos visuales y asignándoles acciones necesarias para completar un flujo de trabajo.
  2. Resistencia a Cambios de Diseño: A diferencia de las soluciones tradicionales, no depende de selectores específicos, lo que lo hace robusto frente a cambios en el diseño de las páginas.
  3. Automatización Escalable: Skyvern es capaz de aplicar un único flujo de trabajo a múltiples sitios web, adaptándose dinámicamente a cada entorno.
  4. Razonamiento Complejo con IA: Gracias a los LLMs, puede manejar situaciones complejas como deducir respuestas a preguntas basadas en contexto o identificar equivalencias entre productos similares en diferentes sitios.

Cómo Funciona Skyvern

Skyvern emplea un diseño inspirado en agentes autónomos, dividiendo las tareas en componentes especializados:

  • Agente de Elementos Interactuables: Identifica elementos HTML interactivos en la página.
  • Agente de Navegación: Planifica los pasos necesarios para completar una tarea, como hacer clic, rellenar formularios o seleccionar opciones.
  • Agente de Extracción de Datos: Lee texto y tablas, devolviendo información estructurada en el formato solicitado.
  • Agentes para Autenticación y 2FA: Gestionan credenciales, códigos de autenticación y accesos seguros en formularios protegidos.
  • Agente de Autocompletado Dinámico: Maneja formularios complejos, ajustando sus entradas según el contexto.

Casos de Uso Reales

Skyvern ya está siendo utilizado en diversas aplicaciones prácticas:

  • Descargar facturas desde múltiples sitios.
  • Automatizar procesos de solicitud de empleo.
  • Gestionar compras de materiales para empresas manufactureras.
  • Completar formularios de contacto en masa.
  • Obtener presupuestos de seguros en diferentes idiomas.
  • Navegar en sitios gubernamentales para registro o presentación de formularios.

Skyvern Cloud: Automatización a Escala

Skyvern ofrece una versión en la nube que permite ejecutar flujos de trabajo en paralelo sin gestionar infraestructura. Esta solución incluye:

  • Mecanismos anti-bots.
  • Resolución de CAPTCHAs.
  • Red de proxies para garantizar el acceso a sitios restringidos.

Los usuarios pueden registrarse en app.skyvern.com para acceder a créditos iniciales gratuitos y probar la plataforma.

Funcionalidades Adicionales

Entre las capacidades avanzadas de Skyvern destacan:

  • Extracción de datos personalizada: Utilizando esquemas en JSONC para definir los datos requeridos.
  • Descarga de archivos: Permite obtener documentos directamente desde los sitios web.
  • Relleno de formularios: Completa campos de texto, opciones desplegables y más, adaptándose dinámicamente al contenido de la página.
  • Transmisión en tiempo real: Permite observar en directo las acciones de Skyvern en el navegador, ideal para depuración.

Configuración y Quickstart

La instalación de Skyvern es sencilla gracias a Docker. Con unos pocos comandos, los usuarios pueden iniciar el sistema y acceder a una interfaz gráfica en http://localhost:8080. También se ofrece soporte para configuraciones más avanzadas, incluyendo contribuciones al proyecto.

Requisitos

  • Python 3.11.
  • Docker Desktop.
  • PostgreSQL 14 (opcional para contribuyentes).

Perspectivas Futuras

El equipo de Skyvern tiene un ambicioso plan de desarrollo que incluye:

  • Soporte para flujos de trabajo encadenados.
  • UI mejorada basada en React.
  • Extensión para Chrome con funcionalidades interactivas.
  • Grabadora de acciones para generar automáticamente flujos de trabajo.
  • Integración con herramientas como Langchain.

Contribuciones y Comunidad

Skyvern fomenta la participación activa de desarrolladores a través de su repositorio en GitHub. El proyecto incluye guías detalladas para contribuir y una comunidad dinámica en Discord para compartir ideas y resolver dudas.

Conclusión
Skyvern redefine la automatización en navegadores, ofreciendo una herramienta potente y versátil que combina inteligencia artificial, visión por computador y escalabilidad. Con su enfoque en flujos de trabajo robustos y adaptables, promete transformar sectores como el comercio electrónico, los servicios financieros y la administración pública.

Más sobre Skyvern en GitHub.

Scroll al inicio