La startup china de inteligencia artificial DeepSeek ha anunciado el lanzamiento de DeepSeek Coder V2, un modelo de lenguaje de código open-source que ha superado a los modelos cerrados más avanzados, incluyendo a GPT-4 Turbo, Claude 3 Opus y Gemini 1.5 Pro.
DeepSeek, que ya había llamado la atención con un competidor de ChatGPT entrenado con 2 billones de tokens en inglés y chino, ha desarrollado este nuevo modelo basado en su MoE (Mixture of Experts). La versión V2 del modelo no solo sobresale en tareas de codificación y matemáticas, sino que también mantiene un rendimiento comparable en razonamiento general y capacidades lingüísticas.
Características de DeepSeek Coder V2
El DeepSeek Coder V2 se construye sobre el modelo DeepSeek-V2, que debutó el mes pasado. Este modelo MoE es compatible con más de 300 lenguajes de programación y ofrece una ventana de contexto ampliada a 128K, permitiendo manejar tareas de codificación más complejas y extensas.
En pruebas de referencia como MBPP+, HumanEval y Aider, DeepSeek Coder V2 obtuvo puntuaciones de 76.2, 90.2 y 73.7, respectivamente, superando a la mayoría de los modelos tanto abiertos como cerrados. Solo GPT-4o logró puntuaciones ligeramente superiores en algunas pruebas específicas.
Innovación y Rendimiento
DeepSeek Coder V2 ha sido entrenado con un conjunto adicional de datos de 6 billones de tokens, compuesto principalmente por datos de código y matemáticas obtenidos de GitHub y CommonCrawl. Este modelo ofrece opciones de parámetros de 16B y 236B, y utiliza solo 2.4B y 21B parámetros «expertos» para abordar tareas específicas, optimizando así las necesidades de computación y aplicación.
Comparación con Otros Modelos
En el benchmark MMLU, diseñado para evaluar la comprensión del lenguaje en múltiples tareas, DeepSeek Coder V2 obtuvo una puntuación de 79.2, superando a otros modelos específicos de código y acercándose al rendimiento de Llama-3 70B. Aunque GPT-4o y Claude 3 Opus lideran esta categoría, DeepSeek Coder V2 ha demostrado que los modelos de código open-source pueden competir eficazmente con los modelos cerrados de última generación.
Disponibilidad y Licencia
DeepSeek Coder V2 se ofrece bajo una licencia MIT, lo que permite tanto el uso comercial como la investigación sin restricciones. Los usuarios pueden descargar los modelos en tamaños de 16B y 236B a través de Hugging Face. Además, la compañía proporciona acceso a los modelos a través de API bajo un modelo de pago por uso. Para aquellos interesados en probar las capacidades del modelo, DeepSeek ofrece la opción de interactuar con DeepSeek Coder V2 mediante un chatbot.
Este desarrollo subraya el avance significativo de los modelos de codificación open-source, que ahora están cerrando la brecha con los modelos cerrados en términos de rendimiento y versatilidad.