En un paso significativo en el campo de la inteligencia artificial, Mistral AI ha presentado Mixtral-8x7B, un modelo generativo de mezcla dispersa de expertos (Sparse Mixture of Experts – SMoE) de alta calidad y open source. Este modelo se posiciona en la vanguardia, superando a Llama 2 70B en la mayoría de los benchmarks y presentando una alternativa más rápida y eficiente.
Innovación y Calidad en Mixtral-8x7B
Mixtral-8x7B, bajo la licencia Apache 2.0, representa un logro notable en la misión de Mistral AI de ofrecer modelos abiertos de primera línea a la comunidad de desarrolladores. Este modelo destaca por su rendimiento en la generación de código y maneja con soltura contextos de hasta 32,000 tokens en varios idiomas, incluyendo inglés, francés, italiano, alemán y español. Además, muestra un desempeño sobresaliente en benchmarks estándar, igualando o superando a GPT3.5.
Una Arquitectura Avanzada
Mixtral es un modelo de red de mezcla dispersa de expertos, donde el bloque de avance elige entre un conjunto de 8 grupos distintos de parámetros para cada token. Esta técnica incrementa el número total de parámetros del modelo, manteniendo bajo control los costos y la latencia, ya que solo utiliza una fracción de estos parámetros por token. En términos concretos, Mixtral tiene 46.7 mil millones de parámetros en total, pero solo usa 12.9 mil millones por token.
Rendimiento Comparativo y Resultados de Benchmarks
En comparación con la familia Llama 2 y el modelo base GPT3.5, Mixtral iguala o supera a Llama 2 70B en la mayoría de los benchmarks. Este rendimiento se refleja en una serie de pruebas detalladas y comparativas, destacando su eficiencia y la relación calidad-presupuesto de inferencia frente a modelos competidores.
Menos Sesgos y Mayor Veracidad
En comparación con Llama 2, Mixtral demuestra ser más veraz (73.9% vs 50.2% en el benchmark TruthfulQA) y presenta menos sesgos en el benchmark BBQ. Además, muestra sentimientos más positivos que Llama 2 en BOLD, con varianzas similares en cada dimensión.
Capacidades Multilingües y Modelos Instruidos
Además de sus capacidades multilingües, se ha lanzado junto a Mixtral-8x7B un modelo optimizado para seguir instrucciones cuidadosas, Mixtral-8x7B Instruct. Este modelo alcanza una puntuación de 8.30 en MT-Bench, situándose como el mejor modelo open source en su categoría, con un rendimiento comparable al de GPT3.5.
Implementación y Acceso a Mixtral
Para facilitar su implementación, Mistral AI ha realizado contribuciones al proyecto vLLM, integrando eficientemente los núcleos CUDA de Megablocks. Además, Skypilot permite el despliegue de endpoints vLLM en cualquier instancia en la nube. Actualmente, el endpoint mistral-small, que utiliza Mixtral-8x7B, está disponible en beta, ofreciendo acceso anticipado a todos los endpoints generativos y de incrustación.
En resumen, Mixtral-8x7B se perfila como una innovación disruptiva en el mundo de la inteligencia artificial, ofreciendo a la comunidad de desarrolladores una herramienta potente y versátil para una amplia gama de aplicaciones. Su naturaleza open source y su rendimiento superior lo convierten en un modelo digno de atención y exploración en diversos campos de la IA.
Referencias: