MosaicML lanzó el 5 de mayo de 2023 MPT-7B, un modelo de lenguaje grande (LLM) de 7.000 millones de parámetros entrenado desde cero con un billón de tokens de texto y código. La novedad respecto a otros modelos de tamaño similar era doble: licencia libre para uso comercial y una ventana de contexto muy superior a la habitual en su época, gracias a la técnica ALiBi (Attention with Linear Biases). El entrenamiento duró 9,5 días en 440 GPU y costó unos 200.000 dólares según MosaicML, sin intervención humana durante el proceso.
Por qué importaba el contexto de 65.000 tokens
En mayo de 2023, la mayoría de modelos open source trabajaban con ventanas de 2.000 a 4.000 tokens. MPT-7B-StoryWriter-65k+, una de las variantes ajustadas, podía manejar hasta 65.000 tokens en inferencia y extrapolarse hasta 84.000. Eso permitía procesar libros completos, conjuntos de documentos legales o conversaciones muy largas en una sola llamada, algo que los modelos comerciales como GPT-4 apenas empezaban a ofrecer con la variante de 32k. Para entender cómo GPT-4 gestionaba el contexto largo en ese mismo periodo, la guía sobre qué es GPT-4 y cómo funciona ofrece el contexto comparativo.
Las cuatro variantes del lanzamiento
MosaicML publicó cuatro versiones distintas del modelo:
- MPT-7B Base: el modelo pre-entrenado sin ajuste fino, punto de partida para que otros equipos construyan encima.
- MPT-7B-Instruct: ajustado para seguir instrucciones. Comparable en enfoque a InstructGPT, pero open source.
- MPT-7B-Chat: ajustado para conversación, con filtros de seguridad básicos incluidos en el fine-tuning.
- MPT-7B-StoryWriter-65k+: ajustado con el objetivo explícito de manejar textos muy largos, usando la interpolación de posición para extender la ventana de contexto.
Qué lo diferenciaba de LLaMA en aquel momento
LLaMA, el modelo de Meta lanzado en febrero de 2023, carecía de licencia comercial. Su uso estaba restringido a investigación no comercial, lo que lo dejaba fuera del alcance de empresas que quisieran usarlo en productos. MPT-7B usaba una licencia Apache 2.0, compatible con uso comercial, lo que lo convertía en el primer modelo de su tamaño con esa combinación de rendimiento y licencia abierta. El código de entrenamiento, ajuste fino y evaluación se publicó también de forma abierta a través de MosaicML LLM Foundry.
En benchmarks comparativos, MPT-7B igualaba o superaba a LLaMA-7B en varias tareas estándar. Los datos de entrenamiento (un billón de tokens) igualaban al corpus de LLaMA y multiplicaban por tres los de Pythia de EleutherAI o los de OpenLLaMA de Berkeley AI Research.
El proceso de entrenamiento autónomo
MosaicML desacó cómo su plataforma resolvió 4 fallos de hardware durante los 9,5 días de entrenamiento sin que ningún ingeniero tuviera que intervenir: el sistema detectó cada caída, reinició desde el último checkpoint y reanuдó el trabajo. Gracias a FlashAttention y FasterTransformer, las optimizaciones de inferencia permitían correr el modelo en hardware más accesible que las alternativas de tamaño equivalente. Para ver cómo OpenAI aborda los mismos problemas de estabilidad en infraestructura GPU a escala mayor, el artículo sobre el protocolo MRC de OpenAI muestra el estado actual de esa misma problemática.
Los datos de entrenamiento y las decisiones de diseño siguen el mismo patrón que se puede leer en el análisis de qué datos usa OpenAI para entrenar sus modelos: Common Crawl filtrado, código de GitHub, libros y fuentes académicas.
MPT-7B en perspectiva: 2023-2026
Databricks adquirió MosaicML en junio de 2023 por unos 1.300 millones de dólares. Desde entonces, la plataforma MosaicML se ha integrado en el entorno de Databricks y el modelo ha quedado como referencia histórica del periodo de apertura de los LLM. En 2024 y 2025, modelos como Llama 3.1, Mistral 7B v0.3 y Qwen 2.5 han tomado el relevo en la categoría de modelos open source de 7.000 millones de parámetros con licencias comerciales, con mejoras sustanciales en benchmarks de razonamiento. MPT-7B marcó el punto en que los modelos de tamaño accesible dejaron de ser solo juguetes de investigación.
Fuente: MosaicML Blog.
Preguntas frecuentes
¿Cuál es la licencia de MPT-7B?
MPT-7B Base se publicó bajo Apache 2.0, compatible con uso comercial. Las variantes Chat e Instruct tienen licencias propias más restrictivas. Conviene revisar los términos específicos de cada variante antes de usarlas en productos.
¿Qué significa ALiBi en MPT-7B?
ALiBi (Attention with Linear Biases) es una técnica que permite al modelo manejar secuencias más largas que las usadas durante el entrenamiento sin pérdida significativa de calidad. Así, MPT-7B entrenado en contextos de hasta 2.048 tokens puede inferir correctamente en contextos de 65.000 o incluso 84.000 tokens.
¿Cómo se compara MPT-7B con LLaMA?
En benchmarks de mayo de 2023, MPT-7B iguala o supera a LLaMA-7B en varias tareas. La diferencia operativa más importante es la licencia: LLaMA estaba restringido a uso no comercial, MPT-7B permitía uso comercial desde el primer día.
¿Qué pasó con MosaicML después del lanzamiento de MPT-7B?
Databricks adquirió MosaicML en junio de 2023 por unos 1.300 millones de dólares. La plataforma y el equipo se integraron en el ecosistema de Databricks, que ya ofrece herramientas de entrenamiento y despliegue de LLM para empresas.












