Amazon Bedrock ha dado un paso significativo en el ámbito de la inteligencia artificial con el lanzamiento de su nueva funcionalidad, las Bases de Conocimiento, dentro de su plataforma. Esta herramienta ha sido diseñada para mejorar los flujos de trabajo de Generación Aumentada por Recuperación (RAG), permitiendo una gestión integral desde la fase de ingestión hasta la recuperación y augmentación de prompts. Así, se elimina la necesidad de construir integraciones personalizadas, agilizando procesos y optimizando la gestión de datos.
El rendimiento de estas bases de conocimiento no sigue un camino uniforme, ya que cada caso tiene sus propias particularidades y ajustes de configuración necesarios. Por lo tanto, realizar pruebas frecuentes y ajustar las configuraciones se vuelve una tarea crítica para identificar la mejor opción para cada situación específica.
Un artículo reciente desglosa las diferentes etapas para evaluar el rendimiento de una base de conocimiento. Estas incluyen la recuperación, que consiste en obtener partes relevantes de los documentos basadas en una consulta y añadirlas como contexto al prompt final, y la generación, que implica enviar el prompt del usuario junto al contexto recuperado a un Modelo de Lenguaje Grande (LLM) para devolver la salida.
Las métricas clave para evaluar la recuperación son la relevancia del contexto y la cobertura del contexto. La primera mide si la información recuperada responde a la intención de la consulta, mientras que la segunda evalúa la exhaustividad de los textos recuperados frente a la verdad objetiva. Esto se lleva a cabo comparando los resultados con un conjunto de datos de prueba preestablecido.
Una vez asegurada la eficacia en la recuperación, comienza la evaluación de la fase de generación. El marco de evaluación de Amazon Bedrock considera ocho métricas que no solo toman en cuenta la calidad de la respuesta en términos de utilidad, corrección, coherencia lógica, completitud y fidelidad, sino que también observan criterios de inteligencia artificial responsable, evaluando posibles contenidos dañinos o estereotipos y la negativa adecuada a responder preguntas inapropiadas.
Desarrollar un conjunto de datos de prueba robusto es esencial para una evaluación precisa, recomendándose el uso de datos anotados por humanos y la generación de datos sintéticos mediante LLMs. Además, la retroalimentación de los usuarios juega un papel crucial dentro de una estrategia de mejora continua.
Optimizar las Bases de Conocimiento de Amazon Bedrock involucra un proceso iterativo de pruebas y refinamientos. El éxito radica en aplicar sistemáticamente técnicas como la ingeniería de prompts y el chunking para perfeccionar tanto la recuperación como la generación. Mantener el seguimiento de las métricas clave a lo largo de este proceso garantizará que las optimizaciones logren los objetivos de la aplicación y cumplan con sus requisitos específicos.