Llama 2 en Hugging Face: cómo acceder y qué versiones hay

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Tras el lanzamiento oficial de Llama 2 por parte de Meta, el modelo quedó disponible en Hugging Face para descarga directa y para pruebas a través de la interfaz Spaces. Lo que sigue son las especificaciones técnicas principales, los modelos disponibles y los pasos para acceder.

Modelos disponibles

Llama 2 tiene tres tamaños de modelo: 7B, 13B y 70B parámetros. Cada uno incluye dos variantes:

Modelo base: preentrenado con datos públicos de internet. Genera texto de forma general y se puede ajustar con datos propios.
Modelo chat (Llama-2-Chat): ajustado con instrucción supervisada (SFT) y aprendizaje por refuerzo con retroalimentación humana (RLHF). Pensado para conversaciones, sigue instrucciones con más coherencia que el modelo base.

En Hugging Face, el Space de acceso rápido usa la versión de 70B (chat) con TGI (Text Generation Inference), la librería de inferencia de Hugging Face. Es la versión con mejor rendimiento, aunque también la que más recursos de cómputo requiere.

Arquitectura y entrenamiento

Llama 2 usa una arquitectura de transformer auto-regresivo con mejoras respecto a la primera versión: atención con múltiples consultas (grouped-query attention), mayor longitud de contexto (4.096 tokens frente a los 2.048 del original) y preprocesamiento ajustado para escalar bien en inferencia.

El preentrenamiento se realizó entre enero y julio de 2023 sobre un conjunto de datos públicos de unos 2 billones de tokens. Los modelos chat añaden una fase de SFT con ejemplos de conversación y una fase de RLHF (ajuste con preferencias humanas), el mismo proceso que aplica OpenAI con GPT-3.5 Turbo y GPT-4. Cómo funcionan los grandes modelos de lenguaje explica en detalle el proceso de preentrenamiento y fine-tuning que subyace a modelos como Llama 2.

Cómo acceder en Hugging Face

Para descargar los pesos del modelo hay que aceptar la licencia de Meta en ai.meta.com/llama-downloads y solicitar acceso al repositorio de Hugging Face correspondiente. El proceso es automático y tarda pocas horas.

Una vez concedido el acceso, se puede descargar el modelo con la librería transformers de Hugging Face. Para hacer pruebas sin descargar nada, el Space de Hugging Face para Llama 2 ofrece una interfaz de chat directamente en el navegador.

Limitaciones de uso

La licencia de Meta permite uso comercial salvo para servicios con más de 700 millones de usuarios activos mensuales. El modelo se publicó para uso en inglés; en otros idiomas, incluido el español, el rendimiento es más variable porque la mayor parte de los datos de entrenamiento están en inglés. El uso está sujeto a la Política de Uso Aceptable de Meta.

Llama 2 es un modelo estático entrenado hasta julio de 2023. Para tareas con información reciente hay que recurrir a técnicas de RAG. Con cuantización de 4 bits (GGUF, AWQ) el modelo de 7B cabe en una GPU de consumo de 8 GB de VRAM, lo que lo hace compatible con ejecutar IA de forma local con modelos abiertos sin depender de servicios en la nube. Meta continuó esta línea con Llama 3, que ofrece mejoras en instrucciones, código y razonamiento.

Preguntas frecuentes

¿Qué diferencia hay entre Llama 2 base y Llama 2 Chat?

El modelo base se preentrenó sobre datos de internet para predecir texto. El modelo chat añade ajuste fino supervisado (SFT) y aprendizaje por refuerzo con retroalimentación humana (RLHF) para que siga instrucciones de conversación de forma coherente y segura.

¿Cuánta memoria GPU necesita Llama 2 70B?

En precisión completa (fp16) necesita más de 140 GB de VRAM. Con cuantización de 4 bits (GGUF, AWQ) puede bajar a unos 40 GB. El modelo de 7B en 4 bits cabe en una GPU de consumo de 8 GB de VRAM.

¿Llama 2 funciona en español?

Sí, aunque con limitaciones. El modelo se entrenó principalmente en inglés, por lo que su rendimiento en español es menor. Hay versiones ajustadas por la comunidad específicamente para español y otros idiomas disponibles en Hugging Face.

¿Puedo usar Llama 2 en mi empresa?

Sí, la licencia permite uso comercial con la restricción de que si tu servicio supera los 700 millones de usuarios activos mensuales necesitarás un acuerdo especial con Meta. Para la mayoría de empresas el uso está permitido sin coste de licencia.

¿Hasta cuándo están actualizados los datos de Llama 2?

El preentrenamiento usa datos hasta julio de 2023. Es un modelo estático que no se actualiza de forma dinámica. Para obtener información más reciente hay que recurrir a técnicas de RAG (retrieval-augmented generation).