Mistral AI ha anunciado el lanzamiento de dos nuevos modelos de lenguaje especializados y de código abierto, Codestral Mamba y Mathstral. Estos modelos pequeños y especializados han logrado un rendimiento de vanguardia en importantes benchmarks para modelos de código abierto.
Codestral Mamba: Innovación en Generación de Código
Codestral Mamba es un modelo de 7 mil millones de parámetros diseñado para ofrecer una inferencia rápida y avanzadas capacidades de codificación. Supera a rivales de código abierto como CodeGemma y CodeLlama, y puede manejar longitudes de contexto de hasta 256k tokens, duplicando la capacidad de GPT4o. Esto lo hace ideal para tareas de codificación grandes y complejas, así como para el desarrollo local.
El modelo está disponible bajo la licencia Apache 2.0, lo que permite su uso, modificación y distribución gratuita. Se puede acceder a través de la API de Mistral y en Hugging Face.
«Codestral Mamba, inspirado en Cleopatra y las circunstancias trágicas de su destino, representa un paso más en nuestro esfuerzo por estudiar y proporcionar nuevas arquitecturas. Este modelo ofrece inferencia en tiempo lineal y la capacidad teórica de modelar secuencias de longitud infinita, lo que es especialmente relevante para la productividad en la codificación», explicó el equipo de Mistral AI.
Mathstral: Excelencia en Razonamiento Matemático
Mathstral, también un modelo de 7 mil millones de parámetros, logra un rendimiento de vanguardia en benchmarks de razonamiento matemático como MATH (56,6%) y MMLU (63,47%). Este modelo está diseñado para abordar problemas matemáticos avanzados que requieren razonamiento lógico complejo en múltiples pasos.
Al igual que Codestral Mamba, Mathstral se lanza bajo la licencia Apache 2.0, permitiendo su uso y modificación libre. Está disponible a través de la API de Mistral y en Hugging Face.
«Mathstral, lanzado en honor a Arquímedes en su 2311º aniversario, contribuye a la comunidad científica para apoyar proyectos académicos avanzados. Logra una capacidad de razonamiento de vanguardia en su categoría de tamaño en varios benchmarks estándar de la industria», señaló el equipo de Mistral AI.
Detalles Técnicos y Accesibilidad
Ambos modelos están diseñados para ofrecer un equilibrio óptimo entre rendimiento y velocidad. Los usuarios pueden desplegar Codestral Mamba y Mathstral utilizando el SDK de inferencia de Mistral, basado en las implementaciones de referencia del repositorio de GitHub de Mamba. También están disponibles para la inferencia local a través de TensorRT-LLM y se pueden descargar los pesos crudos desde Hugging Face.
Para probar los modelos fácilmente, Mistral ha puesto a disposición Codestral Mamba en la plataforma La Plateforme (codestral-mamba-2407), junto con su versión mayor, Codestral 22B, que está disponible bajo una licencia comercial para auto-despliegue o una licencia comunitaria para fines de prueba.
Futuro de la IA en Mistral
Mistral AI continúa revolucionando el panorama de la inteligencia artificial con enfoques innovadores. Estos modelos especializados demuestran que los sistemas de IA más grandes no siempre son mejores. En el futuro, es probable que cada sector tenga un modelo de código abierto hiper-específico y altamente capaz propio.
La filosofía de desarrollo de Mistral, que promueve la creación de modelos específicos para propósitos particulares, se refleja en sus nuevas capacidades de ajuste fino en La Plateforme.
Conclusión
El lanzamiento de Codestral Mamba y Mathstral posiciona a Mistral AI como un líder en la creación de modelos de IA especializados y de alto rendimiento. Estos nuevos modelos no solo proporcionan herramientas avanzadas para desarrolladores y académicos, sino que también promueven una mayor accesibilidad y colaboración en la comunidad de inteligencia artificial.