Meta publicó en septiembre de 2023 un artículo técnico en arXiv presentando Llama 2 Long, una variante del modelo de lenguaje grande (LLM) de código abierto LLaMA 2 con ventana de contexto ampliada hasta 32.768 tokens. La variante de 70.000 millones de parámetros supera a GPT-3.5 Turbo 16k de OpenAI en un conjunto de tareas de contexto largo, según los resultados reportados por el propio equipo de Meta.
Cómo se construyó Llama 2 Long
El equipo de Meta partió de la arquitectura base de LLaMA 2 y la extendió con 400.000 millones de tokens adicionales de entrenamiento. El cambio técnico clave fue la implementación de RoPE (Rotary Positional Embedding), una técnica de codificación posicional que mejora cómo el modelo relaciona tokens que aparecen muy separados dentro de un texto largo. Eso es lo que permite pasar de las 4.096 tokens de contexto de LLaMA 2 base a los 32.768 de Llama 2 Long.
Además, los investigadores aplicaron aprendizaje por refuerzo con retroalimentación humana (RLHF) para ajustar el modelo en tareas concretas de razonamiento, codificación y comprensión del lenguaje, y prestaron especial atención a que el modelo manejara bien datos de baja frecuencia, es decir, información poco común que los modelos grandes tienden a ignorar.
Comparativa con GPT-3.5 Turbo 16k
La variante de 70B supera a GPT-3.5 Turbo 16k en la suite de evaluación de contexto largo que Meta utilizó. Hay que tener en cuenta que estos benchmarks los diseñó el equipo de Meta, por lo que no son evaluaciones independientes. Lo que sí queda claro es que Llama 2 Long con 32.768 tokens dobla la ventana de contexto de GPT-3.5 Turbo 16k (16.384 tokens), lo que lo hace más adecuado para tareas que requieren procesar documentos extensos, bases de código completas o conversaciones largas.
En el contexto del avance de los modelos de código abierto, este lanzamiento fue bien recibido por la comunidad técnica. Medios especializados en infraestructura tecnológica y foros como Hacker News resaltaron que Llama 2 Long demuestra que los LLM de código abierto pueden alcanzar prestaciones comparables a los modelos cerrados de primera línea.
Disponibilidad y uso
Llama 2 Long está disponible para investigadores y desarrolladores a través de los canales habituales de Meta para LLaMA 2. Al ser un modelo de código abierto, se puede desplegar en infraestructura propia, lo que da control sobre los costes de inferencia, algo que cobra cada vez más relevancia dado que Meta también utiliza variantes de LLaMA 2 en sus propias plataformas de consumo como WhatsApp e Instagram.
Preguntas frecuentes sobre Llama 2 Long
¿Qué es Llama 2 Long?
Es una variante del modelo de lenguaje abierto LLaMA 2 de Meta, entrenada con 400.000 millones de tokens adicionales y adaptada con RoPE para manejar ventanas de contexto de hasta 32.768 tokens.
¿Qué es RoPE?
RoPE (Rotary Positional Embedding) es una técnica de codificación posicional que permite al modelo relacionar tokens muy distantes dentro del texto de forma más precisa, lo que mejora el rendimiento en tareas de contexto largo.
¿Supera Llama 2 Long a GPT-4?
No en los benchmarks disponibles de 2023. Supera a GPT-3.5 Turbo 16k en las evaluaciones de contexto largo de Meta, pero GPT-4 Turbo con contexto de 128.000 tokens tiene una ventana de contexto cuatro veces mayor y mejores resultados generales según evaluaciones independientes.
¿Es gratuito Llama 2 Long?
El modelo es de código abierto y se puede descargar y usar libremente, aunque Meta impone restricciones de uso comercial para compañías con más de 700 millones de usuarios activos mensuales.













