Las organizaciones que están adoptando aplicaciones de inteligencia artificial generativa tienen ahora a su disposición nuevas herramientas para evaluar el rendimiento y la fiabilidad de estos sistemas. Durante la conferencia AWS re:Invent 2024, se dio a conocer que las capacidades de evaluación para modelos de lenguaje y sistemas de generación aumentada por recuperación (RAG) se habían estado utilizando de manera preliminar por algunos clientes. Estas herramientas han sido esenciales para medir la eficacia de sus modelos base y aplicaciones de inteligencia artificial generativa.
A partir de hoy, Amazon Bedrock Evaluations extiende estas capacidades de evaluación a un público más amplio, ofreciendo características que permiten mayor flexibilidad y adaptabilidad a diferentes entornos. Ahora se cuenta con la opción «bring your own inference responses» (BYOI), que facilita la evaluación de un sistema RAG o un modelo, independientemente de que se ejecuten en Amazon Bedrock, en otras plataformas de nube, o incluso localmente, siempre que se presenten los datos en el formato especificado.
Además, las nuevas características incluyen métricas mejoradas para la evaluación precisa de la citación dentro de los sistemas RAG. Estas métricas, que incluyen la precisión y cobertura de citación, son críticas para determinar cómo los sistemas utilizan la información recuperada y para descartar citas innecesarias o irrelevantes.
La introducción de estas nuevas herramientas de evaluación promete mejorar notablemente el rendimiento de los equipos al optimizar y garantizar la calidad de sus portafolios de inteligencia artificial generativa. Ahora, las organizaciones pueden implementar flujos de trabajo de evaluación regulares no solo para mejorar sus sistemas constantemente, sino también para realizar comparaciones rigurosas entre diferentes implementaciones. Esto permite una toma de decisiones más informada y basada en datos sobre cómo se despliegan las soluciones de inteligencia artificial.
Finalmente, la actualización del formato de entrada para las evaluaciones, con la inclusión de identificadores de base de conocimiento y campos de metadatos adicionales, fortalece las capacidades de análisis, asegurando así resultados de alta calidad en aplicaciones específicas. Con estas mejoras, las empresas pueden mantener la competitividad y relevancia en un mercado cada vez más impulsado por la informática cognitiva avanzada.