Amazon ha dado un paso significativo en el ámbito de la inteligencia artificial generativa al lanzar nuevas capacidades para su plataforma Amazon Bedrock. Estas novedades permiten a las organizaciones evaluar modelos fundamentales y sistemas de Generación Aumentada por Recuperación de manera más efectiva y precisa. Ahora, los usuarios tienen la posibilidad de evaluar tanto los modelos alojados en Amazon Bedrock como aquellos que funcionan en otras plataformas, gracias a las Evaluaciones de Amazon Bedrock.
Una de las herramientas más innovadoras introducidas es la técnica conocida como «LLM-as-a-judge», que brinda evaluaciones automatizadas con una precisión comparable a la humana. Este método permite valorar diversas dimensiones de la inteligencia artificial responsable, como la exactitud y la exhaustividad, sin necesidad de intervención manual. Adicionalmente, las organizaciones podrán implementar métricas personalizadas adaptadas a sus requerimientos específicos, facilitando una evaluación más significativa de sus aplicaciones de inteligencia artificial generativa.
El sistema ofrece plantillas predefinidas y métricas basadas en criterios generales, pero también otorga la posibilidad de crear métricas personalizadas que se ajusten mejor a las necesidades particulares de cada usuario. Entre sus funcionalidades destacan la capacidad de incorporar contenido dinámico en las evaluaciones y la opción de definir formatos de salida personalizados.
Este avance está diseñado para asistir a las empresas en la manutención de la calidad y la mejora continua de sus sistemas de inteligencia artificial, alineándolos con sus objetivos estratégicos. La integración de métricas personalizadas no solo amplía las capacidades de evaluación, sino que también fomenta un análisis más robusto y contextualizado de los resultados, lo cual se traduce en un impacto más significativo en el rendimiento general del negocio.