Hoy se ha anunciado con gran entusiasmo la disponibilidad del NeMo Retriever Llama 3.2, una nueva tecnología que integra text embedding y reranking como microservicios de NVIDIA NIM en Amazon SageMaker JumpStart. Esta innovación permitirá a los desarrolladores implementar modelos optimizados de re-ranking y embeddings de NVIDIA, facilitando así la construcción, experimentación y escalado de ideas de inteligencia artificial generativa en la plataforma de Amazon Web Services (AWS).
Los microservicios de NVIDIA NIM están diseñados para integrarse eficazmente con servicios gestionados en AWS, como Amazon Elastic Compute Cloud (EC2), Amazon Elastic Kubernetes Service (EKS) y Amazon SageMaker. Este conjunto de microservicios simplifica el despliegue de modelos de IA generativa a gran escala, admitiendo una amplia variedad de modelos, desde los de código abierto hasta los modelos base de NVIDIA. Gracias a las APIs estándar del sector, los desarrolladores pueden integrar estas herramientas en aplicaciones de IA generativa utilizando solo unas pocas líneas de código o haciendo clic en la consola de SageMaker JumpStart.
En cuanto a las capacidades de los nuevos microservicios, el NeMo Retriever text embedding está optimizado para la recuperación de preguntas y respuestas en múltiples idiomas y contextos lingüísticos, y es capaz de manejar documentos largos de hasta 8,192 tokens. Este modelo ha demostrado ser eficaz en la evaluación de 26 idiomas, incluyendo inglés, español, árabe y chino, lo que facilita el acceso a la información de manera eficiente y con un notable ahorro en la huella de almacenamiento de datos.
Además, el NeMo Retriever text reranking está diseñado para gestionar documentos extensos, proporcionando un puntaje que refleja la relevancia de un documento frente a una consulta específica. Este enfoque multilingüe y su capacidad para integrar documentos largos lo posicionan como una herramienta valiosa para sistemas de búsqueda empresariales y aplicaciones de atención al cliente que requieren resultados precisos y rápidos.
SageMaker JumpStart ofrece un servicio completamente gestionado para el uso de modelos de lenguaje avanzados en una variedad de aplicaciones, tales como la redacción de contenido, generación de código y respuesta a preguntas. Facilita la implementación rápida de modelos pre-entrenados y proporciona características como Amazon SageMaker Pipelines y Debugger, que optimizan el rendimiento y el control sobre las operaciones de aprendizaje automático.
Además, los microservicios NeMo Retriever se pueden descubrir y desplegar de forma programática a través del SDK de Python de Amazon SageMaker, permitiendo a los usuarios aprovechar características avanzadas de MLOps y controles sobre el rendimiento del modelo en un entorno seguro. Los datos se gestionan en una VPC (nube privada virtual), reforzando la seguridad para cumplir con las necesidades de las empresas.
Con esta iniciativa, NVIDIA y AWS se posicionan como líderes en proporcionar soluciones que permiten a las empresas desplegar capacidades de búsqueda sofisticadas sin comprometer la eficiencia o la diversidad lingüística, creando aplicaciones que pueden servir a usuarios de todo el mundo con rapidez y precisión.