Evaluación de Agentes de Amazon Bedrock con Ragas y LLM como Jueces

Elena Digital López

Los agentes de inteligencia artificial (IA) están ganando rápidamente protagonismo en los flujos de trabajo de atención al cliente en diversas industrias, facilitando la automatización de tareas complejas, mejorando la toma de decisiones y optimizando operaciones. Sin embargo, su integración en sistemas de producción requiere de pipelines de evaluación escalables. Una evaluación robusta de los agentes permite medir su desempeño en acciones específicas, proporcionando información crucial que mejora la seguridad, el control, la confianza, la transparencia y la optimización del rendimiento de estos sistemas.

Amazon Bedrock Agents aprovecha la lógica de modelos de base disponibles en Amazon Bedrock, junto con APIs y datos, para desglosar solicitudes de los usuarios, recopilar información relevante y ejecutar tareas de manera eficiente. Esto permite que los equipos puedan concentrarse en trabajos de alto valor, permitiendo la automatización de procesos que requieren múltiples pasos.

Por otro lado, Ragas es una librería de código abierto diseñada para probar y evaluar aplicaciones de modelos de lenguaje grande en varios casos de uso, incluyendo la generación aumentada por recuperación (RAG). Este marco habilita la medición cuantitativa de la efectividad de la implementación de RAG, y en estudios recientes, se utilizó para evaluar la capacidad RAG de Amazon Bedrock Agents.

La metodología LLM-as-a-judge consiste en emplear modelos de lenguaje grandes para evaluar la calidad de las salidas generadas por la IA, actuando como un evaluador imparcial. Este enfoque se utilizó para analizar y puntuar las capacidades de conversión de texto a SQL y de razonamiento en cadena de los agentes de Amazon Bedrock.

Además, Langfuse, otra plataforma de ingeniería de código abierto basada en modelos de lenguaje grande, ofrece características como trazas, evaluaciones, gestión de solicitudes y métricas que ayudan a depurar y mejorar aplicaciones basadas en estos modelos.

Recientemente, se presentó un marco de evaluación de agentes Bedrock de código abierto, que tiene la capacidad de evaluar agentes en cuanto a su rendimiento en tareas de RAG, conversión de texto a SQL y uso de herramientas personalizadas. Un aspecto significativo de este avance es la posibilidad de visualizar resultados y datos de trazas a través de paneles integrados en Langfuse.

En la evaluación de agentes, los desarrolladores enfrentan varios desafíos técnicos. Entre ellos, la dificultad de realizar una evaluación completa que contemple métricas específicas para agentes de Amazon Bedrock y la complicada gestión de experimentos debido a las múltiples configuraciones posibles de los agentes.

Para simplificar el proceso, el marco de Open Source Bedrock Agent Evaluation permite a los usuarios especificar un ID de agente y ejecutar trabajos de evaluación que invocan agentes en Amazon Bedrock. Este proceso genera trazas de las invocaciones que se analizan y evalúan, enviando los resultados a Langfuse para obtener información y métricas agregadas.

La evaluación de estas tecnologías es especialmente relevante en la investigación farmacéutica, donde se han diseñado agentes que colaboran y analizan datos relacionados con biomarcadores. Estos agentes utilizan un enfoque de colaboración para facilitar el descubrimiento de información clave en la investigación médica, haciendo crucial la integración y evaluación de sus capacidades. Esto resalta la importancia de contar con herramientas efectivas para la evaluación de agentes de IA, mejorando no solo su eficacia, sino también asegurando su confianza y seguridad en entornos críticos.

Scroll al inicio