Optimiza Recomendaciones de Inicio Rápido con vLLM en AWS Trainium

El desafío del «cold start» en los sistemas de recomendación ha sido un obstáculo constante para plataformas que dependen de ofrecer contenidos personalizados. Este problema no solo se limita a la llegada de nuevos usuarios o la introducción de nuevos productos, sino que se extiende a la ausencia total de datos sobre los intereses del usuario al principio. Sin un historial de comportamiento, los motores de recomendación suelen recurrir a segmentaciones genéricas, lo cual perjudica las tasas de clics y conversiones, y puede alienar a los usuarios antes de que se identifiquen sus preferencias.

Tradicionalmente, las soluciones como el filtrado colaborativo o las listas basadas en popularidad han intentado abordar este problema, pero carecen de la precisión necesaria para asegurar recomendaciones significativas. No obstante, surge una nueva perspectiva donde los perfiles de interés se pueden generar desde el primer instante mediante modelos de lenguaje a gran escala, creando representaciones ricas sin requerir semanas de interacciones del usuario.

Este avance se materializa a través del uso de la infraestructura de Amazon EC2 Trainium, junto con contenedores de aprendizaje profundo optimizados por el AWS Neuron SDK. Este marco permite a los ingenieros experimentar con diferentes configuraciones de modelos de lenguaje y encoders, logrando iteraciones rápidas y precisas en las recomendaciones sin la necesidad de modificar el modelo base.

En el proceso de desarrollo de esta innovadora solución, el conjunto de datos de reseñas de libros de Amazon fue fundamental, simulando escenarios de «cold start» al trabajar con usuarios que apenas tienen una reseña. A partir de estos datos iniciales y la aplicación de modelos de lenguaje, es posible expandir el perfil del usuario e inferir subtemas que podrían interesarle.

Una vez enriquecidos estos perfiles de usuario, el siguiente paso consiste en transformar tanto los intereses ampliados como el catálogo de libros en vectores comparables mediante codificadores como Google T5. Investigaciones han demostrado que el tamaño del codificador influye directamente en la calidad de las recomendaciones, mejorando la efectividad de las coincidencias cuando se realizan búsquedas mediante índices FAISS.

Este detallado análisis revela que con el incremento del tamaño de los modelos, las recomendaciones se vuelven más precisas, permitiendo a los desarrolladores encontrar un balance óptimo entre rendimiento y costo. Los modelos están siendo preparados para un entorno de producción, donde los perfiles enriquecidos estarán listos para interactuar con una amplia gama de contenido disponible.

Este novedoso enfoque subraya el potencial del aprendizaje automático para revolucionar los sistemas de recomendación, ofreciendo a los usuarios una experiencia personalizada desde el primer contacto.

Scroll al inicio