Introducción al Uso de Ordenadores en Amazon Bedrock Agents

Elena Digital López

Anthropic ha introducido una nueva capacidad revolucionaria denominada «uso de computadoras», que posibilita a sus modelos fundamentales interpretar visualmente las interfaces digitales. Esta innovadora funcionalidad permite que los modelos Claude de Anthropic identifiquen el contenido de una pantalla, comprendan el contexto de los elementos de la interfaz de usuario (UI) y reconozcan acciones a realizar, como hacer clic en botones, escribir texto o navegar entre aplicaciones. Sin embargo, los modelos por sí solos no pueden ejecutar estas acciones, ya que requieren de una capa de orquestación para implementarlas de manera segura.

El soporte para el uso de computadoras está disponible en Amazon Bedrock Agents, que utiliza los modelos Claude 3.5 Sonnet V2 y Claude Sonnet 3.7. Esta colaboración entre las capacidades de percepción visual de Anthropic y la gestión de Amazon Bedrock ofrece una herramienta segura y rastreable para la automatización en flujos de trabajo.

Las organizaciones de diversos sectores se enfrentan a desafíos para automatizar tareas repetitivas que involucran múltiples aplicaciones y sistemas. Procesos como el manejo de facturas o la actualización de registros de clientes a menudo requieren que los empleados transfieran información manualmente, un procedimiento que consume tiempo y es propenso a errores. Las metodologías tradicionales de automatización demandan integraciones de API personalizadas, generando una carga de desarrollo significativa. Aquí es donde las capacidades de uso de computadoras transforman el paradigma, ya que permiten que las máquinas perciban las interfaces existentes de la misma manera que un humano lo haría.

Un ejemplo de un agente de uso de computadora muestra la capa de orquestación crucial que convierte esta capacidad perceptiva en automatización activa. Sin esta capa, el uso de computadoras solo identificaría acciones potenciales sin la habilidad de ejecutarlas. El demo de agente de uso de computadora ofrece un entorno de ejecución seguro, un registro completo de cada acción, capacidades de trazabilidad detalladas y simplificación en pruebas y experimentaciones.

Con la integración de la funcionalidad de uso de computadoras, Amazon Bedrock Agents puede automatizar tareas mediante acciones básicas de GUI y comandos incorporados de Linux. Por ejemplo, un agente podría tomar capturas de pantalla, crear y editar archivos de texto, y ejecutar comandos de Linux. Esto incluye herramientas para interactuar con interfaces de usuario, editar texto y ejecutar comandos de Bash.

El flujo de trabajo del uso de computadora abarca pasos como la creación de un agente, la descripción de sus interacciones, la adición de grupos de acciones compatibles y la invocación del agente con una consulta de usuario que requiere herramientas de uso de computadoras. El agente utiliza las definiciones de herramientas disponibles y decide qué acción realizar, proporcionando una respuesta que se procesa y ejecuta en un entorno seguro.

Este avance permite a los desarrolladores no solo automatizar tareas de forma más eficiente, sino también contar con una trazabilidad que optimiza los flujos de trabajo empresariales. Al usar Amazon Bedrock Agents, las organizaciones pueden abordar procesos como el procesamiento de facturas o la documentación de recursos humanos de manera significativamente más efectiva.

En conclusión, la capacidad de uso de computadoras integrada en Amazon Bedrock Agents ofrece un enfoque transformador para los retos que enfrentan las organizaciones en la automatización de flujos de trabajo complejos. Esta solución elimina la necesidad de desarrollar APIs personalizadas para cada aplicación, al tiempo que facilita la implementación inmediata de soluciones de automatización. Las posibilidades son amplias y prometedoras, llevando las operaciones empresariales a un nuevo nivel de eficiencia e innovación.

Scroll al inicio