Optimización de Modelos DeepSeek-R1 Destilados con Hugging Face TGI en Amazon SageMaker AI

Elena Digital López

DeepSeek AI, una destacada startup en el ámbito de la inteligencia artificial, ha dado un paso significativo en la evolución de los modelos de lenguaje con el lanzamiento de DeepSeek-R1. Este modelo innovador se diferencia por su avanzado proceso de entrenamiento, que no solo incluye las etapas tradicionales de pre-entrenamiento y ajuste fino, sino que también incorpora aprendizaje por refuerzo. Este enfoque permite que el modelo genere respuestas más precisas y refinadas a través de un proceso de cadena de pensamiento (CoT), descomponiendo consultas complejas en pasos lógicos claros para mejorar la claridad y precisión de las respuestas.

El modelo DeepSeek-R1 también aprovecha la tecnología de NVIDIA para ejecutar subprocesos en paralelo, lo que mejora la eficiencia durante el entrenamiento. Mediante la combinación de ajuste fino supervisado (SFT) y optimización robusta de política en grupos (GRPO), el modelo asegura resultados transparentes e interpretables.

La gama de modelos DeepSeek incluye diversas variantes, como DeepSeek-V3, que utiliza una arquitectura de Mezcla de Expertos (MoE) para activar solo un conjunto limitado de subredes por entrada, mejorando así la eficiencia. Por otro lado, DeepSeek-R1-Zero, una variante de DeepSeek-V3, mejora su capacidad de razonamiento mediante aprendizaje por refuerzo, aunque todavía enfrenta algunos desafíos en términos de legibilidad y mezcla de lenguajes.

DeepSeek-R1 ha sido desarrollado sobre la base de DeepSeek-V3 con un proceso de entrenamiento más complejo, que engloba datos de SFT mediante muestreo por rechazo y un ciclo adicional de aprendizaje reforzado, resultando en un modelo más robusto y eficaz. Otra opción destacable dentro de esta línea es DeepSeek-R1-Distill, derivada de un proceso de destilación de conocimiento, en el cual DeepSeek-R1 actúa como modelo maestro para las variantes de los modelos Qwen y Llama, mejorando sus capacidades de razonamiento manteniendo su arquitectura original.

Un desarrollo relevante ha sido la optimización del alojamiento de los modelos destilados DeepSeek-R1 utilizando Hugging Face Text Generation Inference (TGI) en Amazon SageMaker AI. Este marco de inferencia está diseñado para satisfacer los exigentes requerimientos de latencia y computación de los modelos de lenguaje avanzados. SageMaker AI facilita la implementación de estos modelos optimizados con TGI, asegurando un despliegue escalable y rentable mediante la integración avanzada con la pila de inferencia de Hugging Face.

Las ventajas de TGI incluyen paralelización de tensores, batching continuo, cuantización, decodificación especulativa, optimización de caché clave-valor, y streaming de tokens en tiempo real, mejorando la eficiencia de la generación de texto a gran escala. Amazon SageMaker AI ofrece la capacidad de desplegar modelos de DeepSeek-R1 eficientemente, gracias a su función de autoescalado y balanceo de carga automático, lo cual maximiza el uso de recursos y reduce costos. Además, proporciona flexibilidad para alojar modelos de forma privada mediante cargas en un bucket de S3.

Las variantes de DeepSeek-R1 han sido exhaustivamente evaluadas en rendimiento de inferencia a través de métricas críticas, asegurando su escalabilidad y efectividad en aplicaciones del mundo real.

Scroll al inicio