¿Qué versiones de Llama 2 existen?

Llama 2 se publicó en tres tamaños: 7.000 millones, 13.000 millones y 70.000 millones de parámetros. Cada uno tiene versión base y versión ajustada para conversación (Llama 2 Chat). El de 7.000 millones puede correr en hardware menos potente.

¿Cuál es la licencia de Llama 2?

Llama 2 tiene licencia comercial permisiva para organizaciones con menos de 700 millones de usuarios activos mensuales, lo que cubre la mayoría de empresas. Permite su uso, modificación y distribución con ciertas condiciones.

Notas de prensa
13/11/2023

Dell facilita el despliegue on-premises de Llama 2 con Meta

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Dell Technologies y Meta anunciaron en noviembre de 2023 una colaboración para llevar los modelos Llama 2 de Meta a las instalaciones propias de los clientes de Dell. La propuesta une la infraestructura de TI y los servicios profesionales de Dell con la familia de modelos de lenguaje de código abierto de Meta, con el objetivo de que las empresas puedan ejecutar IA generativa (GenAI) en sus propios centros de datos, sin depender exclusivamente de servicios en la nube pública.

Qué es Llama 2 y por qué interesa a las empresas

Llama 2 es la familia de modelos de lenguaje de código abierto lanzada por Meta en julio de 2023. Disponible en versiones de 7.000, 13.000 y 70.000 millones de parámetros, el modelo tiene licencia comercial permisiva para organizaciones con menos de 700 millones de usuarios activos mensuales, lo que lo hace usable por la mayoría de empresas. Su modelo base y sus variantes ajustadas para conversación (Llama 2 Chat) compiten en benchmarks de razonamiento y seguimiento de instrucciones con modelos de acceso cerrado.

Para muchas organizaciones, la opción de ejecutar Llama 2 en sus propias instalaciones es más atractiva que usar la API de un modelo propietario: más control sobre los datos, posibilidad de ajuste fino (fine-tuning) con datos privados, cumplimiento de normativa sobre residencia de datos en la UE y costes predecibles una vez amortizada la infraestructura. La apuesta de Meta por la IA generativa abierta ha ido ampliándose desde entonces con versiones más avanzadas de la familia Llama.

El Diseño Validado de Dell: qué incluye

Dell ofrece lo que denomina “Dell Validated Design for Generative AI with Meta Llama 2”: una combinación de infraestructura, software y servicios comprobados y probados juntos antes de llegar al cliente. La idea es reducir el tiempo de puesta en marcha y eliminar el trabajo de integración que normalmente caería sobre el equipo de TI interno.

El paquete incluye guías de implementación completas y herramientas de dimensionamiento que ayudan a elegir la configuración de hardware adecuada según el tamaño del modelo y la carga de trabajo prevista. Eso aplica tanto a despliegues en centros de datos como en ubicaciones de borde, donde la latencia de conexión a la nube es un problema real. Dell también incluye en su cartera GenAI dispositivos cliente, lo que apunta a casos de uso donde parte de la inferencia se ejecuta localmente en estaciones de trabajo o equipos de usuario final.

Por qué el despliegue on-premises tiene sentido para ciertos sectores

No todas las organizaciones pueden o quieren enviar sus datos a la nube para procesarlos con un LLM. El sector financiero, la sanidad, la administración pública y las empresas industriales con propiedad intelectual sensible tienen razones sólidas para mantener el procesamiento en su propia infraestructura. La combinación de un modelo abierto como Llama 2 con un entorno on-premises validado como el de Dell cubre esa necesidad sin obligar a construir la solución desde cero.

Jeff Boudreau, director de IA en Dell Technologies, lo enmarcó así en el anuncio: “Estamos haciendo que la GenAI de código abierto sea más accesible para todos los clientes, a través de una guía de implementación detallada junto con la infraestructura de software y hardware óptima para implementaciones de todos los tamaños”. La referencia a “todos los tamaños” es intencionada: el modelo de 7.000 millones de parámetros de Llama 2 puede correr en hardware razonablemente compacto, lo que lo pone al alcance de organizaciones que no tienen presupuesto para un clúster de GPUs de nivel hiper-escalador. El debate sobre dónde se ejecutan los modelos de IA abiertos y quién controla la infraestructura es uno de los más activos en el sector cloud europeo.

El contexto: código abierto frente a modelos propietarios en la empresa

La colaboración Dell-Meta llega cuando el debate entre modelos propietarios y modelos abiertos ya está sobre la mesa en los departamentos de TI. Los modelos propietarios (GPT-4, Claude, Gemini) ofrecen capacidades avanzadas sin necesidad de infraestructura propia, pero con dependencia del proveedor, costes variables por token y restricciones sobre qué datos se pueden enviar. Los modelos abiertos como Llama 2 requieren inversión inicial en hardware y en equipo técnico para ajustarlos, pero a cambio dan control total sobre el modelo, los datos y los costes de inferencia a largo plazo.

La gestión del ciclo de vida de los modelos en producción es uno de los aspectos técnicos que más tiempo consume en los equipos de IA empresarial, algo que los validated designs de Dell buscan simplificar con guías probadas.

Preguntas frecuentes

¿Qué es el Dell Validated Design para IA generativa con Llama 2?

Es un paquete de infraestructura, software y servicios de Dell comprobados y preconfigurados para desplegar Llama 2 en instalaciones propias. Incluye guías de implementación detalladas y herramientas de dimensionamiento para distintos tamaños de organización.

¿Por qué ejecutar Llama 2 on-premises en vez de usar la nube?

Las principales razones son: control total sobre los datos sin enviarlos a terceros, cumplimiento de normativas de residencia de datos (especialmente en la UE), posibilidad de fine-tuning con datos propios y costes predecibles una vez amortizada la infraestructura.

¿Qué versiones de Llama 2 están disponibles?

Llama 2 se publicó en tres tamaños: 7.000 millones, 13.000 millones y 70.000 millones de parámetros. Cada tamaño viene en versión base y en versión ajustada para conversación (Llama 2 Chat). El modelo de 7.000 millones de parámetros puede correr en hardware menos potente, mientras que el de 70.000 millones requiere GPUs de alta memoria.

¿Qué sectores se benefician más de un despliegue on-premises?

Los más beneficiados son los que tienen restricciones estrictas sobre el movimiento de datos: sector financiero, sanidad, administración pública, defensa e industrias con propiedad intelectual sensible. También ubicaciones con conectividad limitada donde la latencia de la nube es un problema operativo.

¿Cuál es la diferencia entre Llama 2 y los modelos de código abierto anteriores?

Llama 2 incluyó por primera vez una licencia comercial permisiva para organizaciones medianas y pequeñas, lo que no tenía la versión original. Además, Meta publicó los pesos del modelo para que cualquier organización pudiera descargarlo, ajustarlo y ejecutarlo sin depender de una API ni de un proveedor de nube específico.