DeepSeek-V3: el modelo de IA de código abierto que desafía a los gigantes de la inteligencia artificial

La startup china DeepSeek ha lanzado su último modelo de inteligencia artificial de gran escala, el DeepSeek-V3, que promete revolucionar el panorama de los modelos de lenguaje. Con 671.000 millones de parámetros y utilizando una arquitectura de «mixture-of-experts» (MoE), este modelo supera a competidores como Llama 3.1-405B de Meta y Qwen 2.5-72B en varias pruebas de referencia, acercándose al rendimiento de modelos cerrados como los de OpenAI y Anthropic.

Disponible a través de Hugging Face, el DeepSeek-V3 busca cerrar la brecha entre los modelos de IA de código abierto y cerrado, ofreciendo una alternativa eficiente y accesible para desarrolladores y empresas.


Innovaciones clave de DeepSeek-V3

El modelo utiliza una arquitectura MoE que permite activar únicamente los parámetros relevantes para cada tarea, optimizando así la eficiencia y reduciendo los costos de hardware. Además, DeepSeek ha introducido dos mejoras innovadoras:

  1. Balanceo de carga sin pérdida auxiliar: ajusta dinámicamente la carga entre los diferentes «expertos» del modelo para mantener un rendimiento consistente.
  2. Predicción de múltiples tokens: permite predecir varios tokens simultáneamente, lo que acelera el procesamiento hasta tres veces más rápido que los modelos tradicionales.

Estas mejoras se suman a su capacidad para manejar longitudes de contexto extendidas, alcanzando hasta 128.000 tokens, lo que lo hace ideal para tareas complejas como el análisis de datos extensos o la generación de documentos largos.


Entrenamiento eficiente y económico

DeepSeek entrenó el modelo en 14,8 billones de tokens utilizando técnicas avanzadas como el marco de precisión mixta FP8 y el algoritmo DualPipe para paralelismo de pipeline. Este enfoque permitió completar el entrenamiento en 2,7 millones de horas GPU, con un costo estimado de 5,57 millones de dólares. En comparación, modelos como Llama 3.1 han requerido inversiones superiores a los 500 millones de dólares.


Rendimiento superior en pruebas clave

DeepSeek-V3 ha demostrado un rendimiento sobresaliente en pruebas de codificación, matemáticas y procesamiento de texto, superando a modelos abiertos como Llama 3.1 y Qwen en múltiples categorías. En la prueba Math-500, obtuvo un puntaje de 90,2, muy por encima del 80 alcanzado por Qwen.

Sin embargo, en tareas específicas como preguntas simples en inglés (SimpleQA) y FRAMES, los modelos cerrados como GPT-4o de OpenAI aún se posicionan ligeramente por delante. Aun así, el rendimiento general del DeepSeek-V3 lo sitúa como el modelo de código abierto más avanzado disponible actualmente.


Impacto en el ecosistema de IA

La llegada de DeepSeek-V3 marca un hito en la competencia entre modelos de código abierto y cerrado. Su arquitectura eficiente y sus innovaciones lo convierten en una opción viable para empresas y desarrolladores que buscan integrar modelos avanzados sin los altos costos asociados a opciones cerradas.

El modelo ya está disponible bajo una licencia empresarial de DeepSeek, con acceso a través de la plataforma DeepSeek Chat y una API comercial. Hasta el 8 de febrero, la API se ofrece al mismo precio que su predecesor, DeepSeek-V2, con tarifas de $0,27 por millón de tokens de entrada y $1,10 por millón de tokens de salida.


Una alternativa sólida a los gigantes

Con DeepSeek-V3, la industria de la IA avanza hacia un panorama más equilibrado, donde los modelos de código abierto pueden competir de cerca con opciones propietarias. Esto no solo democratiza el acceso a la tecnología, sino que también fomenta la innovación al permitir que más actores participen en el desarrollo de soluciones avanzadas.

En palabras de los expertos, este avance representa un paso más hacia la inteligencia general artificial (AGI), acercando a los modelos a la capacidad de realizar cualquier tarea intelectual que un humano pueda llevar a cabo. DeepSeek ha dejado claro que el código abierto no solo es viable, sino que puede liderar la próxima gran ola de avances en inteligencia artificial.

Referencias: SiliconAngle y VentureBeat.

Scroll al inicio