MPT-7B: Un nuevo estándar en modelos de lenguaje de gran tamaño de código abierto y uso comercial

Hoy se presenta MPT-7B, el último miembro de la serie MosaicML Foundation. MPT-7B es un transformador entrenado desde cero con 1 billón de tokens de texto y código. Es de código abierto, disponible para uso comercial y ofrece una calidad similar a LLaMA-7B. MPT-7B se ha entrenado en la plataforma MosaicML en 9,5 días sin intervención humana y con un costo de aproximadamente 200.000 dólares. A partir de hoy, los usuarios pueden entrenar, ajustar y desplegar sus propios modelos MPT privados, ya sea comenzando desde uno de los puntos de control o entrenando desde cero. Además, se han lanzado tres modelos ajustados adicionales, aparte del MPT-7B base: MPT-7B-Instruct, MPT-7B-Chat y MPT-7B-StoryWriter-65k+, este último con una longitud de contexto de 65k tokens.

Los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) están revolucionando el mundo, pero para aquellos ajenos a los laboratorios industriales con amplios recursos, puede resultar extremadamente difícil entrenar y desplegar estos modelos. Esto ha llevado a un aumento de actividad centrada en LLM de código abierto, como la serie LLaMA de Meta, la serie Pythia de EleutherAI, la serie StableLM de StabilityAI y el modelo OpenLLaMA de Berkeley AI Research.

MosaicML lanza hoy una nueva serie de modelos llamada MPT (MosaicML Pretrained Transformer) para abordar las limitaciones de los modelos mencionados anteriormente y, finalmente, proporcionar un modelo de código abierto y de uso comercial que iguale (y en muchos aspectos, supere) a LLaMA-7B. La serie de modelos MPT de MosaicML cuenta con las siguientes características:

  • Licencia para uso comercial (a diferencia de LLaMA).
  • Entrenamiento en una gran cantidad de datos (1 billón de tokens, como LLaMA, frente a 300.000 millones para Pythia, 300.000 millones para OpenLLaMA y 800.000 millones para StableLM).
  • Capacidad para manejar entradas extremadamente largas gracias a ALiBi (se entrenó en entradas de hasta 65k y puede manejar hasta 84k, frente a 2k-4k para otros modelos de código abierto).
  • Optimización para un rápido entrenamiento e inferencia (a través de FlashAttention y FasterTransformer).
  • Código de entrenamiento de código abierto altamente eficiente.
  • Evaluación rigurosa de MPT en una variedad de benchmarks, donde MPT alcanza la alta calidad establecida por LLaMA-7B.

Hoy se lanzan el modelo base MPT y otras tres variantes ajustadas que demuestran las diferentes formas de construir a partir de este modelo base:

  1. MPT-7B Base.
  2. MPT-7B-StoryWriter-65k+.
  3. MPT-7B-Instruct.
  4. MPT-7B-Chat.

Se espera que tanto las empresas como la comunidad de código abierto aprovechen este esfuerzo: además de los puntos de control del modelo, se ha puesto a disposición todo el código fuente para el preentrenamiento, ajuste y evaluación de MPT a través de nuestra nueva MosaicML LLM Foundry.

Este lanzamiento va más allá de ser solo un punto de control del modelo: es un marco completo para construir excelentes LLM con el enfoque habitual de MosaicML en eficiencia, facilidad de uso y atención rigurosa al detalle. Estos modelos han sido creados por el equipo de NLP de MosaicML en la plataforma MosaicML, utilizando las mismas herramientas que emplean nuestros clientes (tal como lo hace Replit, por ejemplo).

Se entrenó MPT-7B SIN intervención humana de principio a fin: durante 9,5 días en 440 GPU, la plataforma MosaicML detectó y solucionó 4 fallos de hardware y reanudó automáticamente el entrenamiento. Gracias a las mejoras en la arquitectura y optimización, no se produjeron picos catastróficos de pérdida. ¡Echa un vistazo a nuestro registro de entrenamiento vacío para MPT-7B!

Más información y fuente en Mosaic ML.

Scroll al inicio