Meta AI ha presentado este 24 de febrero LLaMA, una familia de cuatro modelos de lenguaje (LLM) que va de los 7.000 a los 65.000 millones de parámetros y que la compañía libera para uso académico bajo solicitud. La cifra que más ruido hace en los benchmarks es la del modelo intermedio: LLaMA-13B supera a GPT-3 (175.000 millones de parámetros) en la mayoría de pruebas estándar a pesar de ser más de diez veces más pequeño. El modelo grande, LLaMA-65B, se planta de frente a Chinchilla-70B de DeepMind y a PaLM-540B de Google.
El detalle clave no está solo en el tamaño. Meta asegura haber entrenado los modelos solo con conjuntos de datos públicos: Common Crawl, C4, GitHub, Wikipedia, libros del proyecto Gutenberg, ArXiv y Stack Exchange. Sin corpus privados, sin datos cerrados detrás de un acuerdo. Para una industria que durante meses ha defendido que los grandes LLM solo eran posibles con corpus propietarios, el mensaje viene cargado.
Qué hay dentro de LLaMA
La familia se compone de cuatro variantes: 7B, 13B, 33B y 65B parámetros. Las dos pequeñas se han entrenado con 1 billón de tokens (1012) y las dos grandes con 1,4 billones, una cifra muy por encima de lo recomendado por las leyes de escalado de Chinchilla. Meta apuesta deliberadamente por modelos «sobreentrenados»: más pasadas a los datos para que el modelo final sea más pequeño y, sobre todo, más barato de servir en inferencia.
La arquitectura mantiene la línea de los Transformer decoder-only, con tres ajustes que se han vuelto habituales en los LLM modernos: pre-normalización con RMSNorm, función de activación SwiGLU en lugar de ReLU y embeddings posicionales rotatorios (RoPE). Nada rompedor por separado, pero el conjunto explica buena parte de la eficiencia.
Cómo se compara con GPT-3, Chinchilla y PaLM
El paper publicado por Meta detalla los resultados en pruebas estándar como MMLU (conocimiento multitarea), HellaSwag (razonamiento de sentido común), BoolQ, PIQA, SIQA o WinoGrande. LLaMA-13B bate a GPT-3 en la mayoría de ellas y LLaMA-65B se mantiene a la altura de Chinchilla-70B y PaLM-540B en razonamiento, lectura y matemáticas. En tareas de código (HumanEval, MBPP) los modelos grandes igualan a PaLM aunque aún quedan lejos de modelos especializados como Codex.
El truco está en el coste de inferencia, no solo en la métrica. Servir un modelo de 13B requiere, a grandes rasgos, una décima parte del hardware necesario para mover un GPT-3 de 175B. Para equipos académicos sin acceso a una API de OpenAI o a clústeres de TPUs, la diferencia entre poder ejecutar el modelo o no.
El cambio de fondo se nota en otras áreas: cada vez es más viable ejecutar modelos grandes en una GPU de consumo con apoyo del SSD, y han aparecido propuestas como Bonsai 8B, que mete 8.200 millones de parámetros en 1,15 GB. LLaMA es uno de los puntos de partida de toda esa línea.
Acceso, licencia y comunidad
Meta no publica los pesos en abierto a la manera de OPT o BLOOM. La compañía libera el código y los pesos solo para investigadores que los soliciten mediante un formulario, con una licencia no comercial que prohíbe usar el modelo en productos. Es una apertura intermedia: más amplia que la API cerrada de GPT-3, más restrictiva que un Apache 2.0 puro.
La compañía argumenta que ese formato permite a la comunidad estudiar el comportamiento de los modelos —sesgos, toxicidad, alucinaciones— sin renunciar al control sobre el uso comercial. Habrá que ver cuánto aguanta la barrera: cuando los pesos circulan, suelen acabar en sitios donde el formulario ya no aplica.
Guillaume Lample, uno de los autores principales, ha resumido el lanzamiento en este hilo:
Por qué importa
LLaMA llega en un momento delicado para el discurso oficial de OpenAI y Microsoft, que han defendido que los modelos punteros requieren miles de millones en infraestructura y datos cerrados. Meta enseña que con datos públicos, una arquitectura cuidada y una receta de entrenamiento bien planteada se puede llegar a resultados muy competitivos con un coste de inferencia mucho menor.
El movimiento se enmarca, además, en un debate más amplio: el poder en IA ya no se juega solo en quién tiene el modelo más grande, sino en quién consigue infraestructura barata, eficiencia y comunidad. La apuesta por correr modelos en local lleva años creciendo y se apoya, en buena parte, en la cadena de modelos abiertos que LLaMA ayuda a desencadenar. En el plano de hardware, fabricantes como NVIDIA empujan en la misma dirección con propuestas pensadas para ejecutar modelos abiertos y de frontera sin salir del despacho.
Documentación
El paper completo está disponible en la web de Meta Research: LLaMA: Open and Efficient Foundation Language Models. También se puede consultar el PDF original a continuación.
Preguntas frecuentes sobre LLaMA
¿Cuántos modelos forman la familia LLaMA y qué tamaño tienen?
La familia inicial se compone de cuatro modelos: 7B, 13B, 33B y 65B parámetros. Comparten arquitectura Transformer decoder-only y han sido entrenados con conjuntos de datos públicos.
¿Es cierto que LLaMA-13B supera a GPT-3?
Según los benchmarks que publica Meta, LLaMA-13B obtiene mejores resultados que GPT-3 (175B) en la mayoría de pruebas estándar como MMLU, HellaSwag o PIQA. No siempre lo hace mejor en tareas muy específicas, pero la comparativa general le es favorable a pesar de tener trece veces menos parámetros.
¿Con qué datos se ha entrenado LLaMA?
Meta indica que ha usado solo datasets públicos: Common Crawl, C4, GitHub, Wikipedia, libros de Gutenberg y Books3, ArXiv y Stack Exchange. Las versiones pequeñas se entrenaron con 1 billón de tokens y las grandes con 1,4 billones.
¿Se puede usar LLaMA en productos comerciales?
No con esta primera versión. La licencia es no comercial: Meta solo entrega los pesos a investigadores que los soliciten mediante formulario, y prohíbe explícitamente integrarlos en productos. Para uso académico o de investigación sí está permitido.
¿Qué hardware hace falta para ejecutar LLaMA-65B?
El modelo grande necesita varias GPU de gama alta para ejecutarse en precisión completa (típicamente 8 GPU A100 de 80 GB para inferencia razonable). Las versiones de 7B y 13B se pueden mover en una sola GPU con cuantización, lo que ha disparado el interés de la comunidad académica.












