DeepSeek lanza Janus-Pro, un modelo de IA que supera a DALL-E 3 y Stable Diffusion en generación de imágenes

La startup china de inteligencia artificial DeepSeek ha presentado Janus-Pro, un modelo multimodal de código abierto que promete revolucionar la generación de imágenes a partir de descripciones textuales. Con este lanzamiento, la compañía consolida su posición en el sector tras el éxito de su anterior modelo, R1.

DeepSeek, la emergente empresa china especializada en inteligencia artificial, ha dado un nuevo golpe sobre la mesa con el lanzamiento de Janus-Pro, un modelo multimodal de IA que supera en rendimiento a gigantes como DALL-E 3 y Stable Diffusion en la generación de imágenes a partir de texto. Este anuncio llega poco después del debut de R1, un modelo que, con capacidades de razonamiento de nivel o1, ya había sacudido los mercados y la industria tecnológica.

janus pro teaser1

Janus-Pro, disponible en versiones de 1.000 millones y 7.000 millones de parámetros, ha demostrado un rendimiento superior en benchmarks clave del sector, como GenEval y DPG-Bench, superando a sus rivales en calidad y precisión de las imágenes generadas. Además, su licencia MIT permite a los desarrolladores utilizar y modificar el modelo libremente para proyectos comerciales, una decisión que podría acelerar su adopción en diversas industrias.

¿Qué hace único a Janus-Pro?

El modelo se basa en un marco autoregresivo que unifica la comprensión y generación multimodal, abordando las limitaciones de enfoques anteriores. Janus-Pro desacopla la codificación visual en vías separadas, lo que no solo resuelve los conflictos entre los roles del codificador visual en la comprensión y generación, sino que también aumenta la flexibilidad del sistema. Este enfoque innovador le permite superar modelos unificados anteriores y competir con modelos específicos para tareas concretas.

En cuanto a su arquitectura, Janus-Pro utiliza SigLIP-L como codificador visual para la comprensión multimodal, admitiendo imágenes de hasta 384 x 384 píxeles. Para la generación de imágenes, emplea un tokenizador con una tasa de reducción de 16, optimizando así su capacidad de procesamiento.

Impacto en el mercado

El lanzamiento de Janus-Pro llega en un momento en que DeepSeek está en boca de todos. Su modelo anterior, R1, ya había planteado dudas sobre la supuesta ventaja de Estados Unidos en el campo de la IA, al ofrecer capacidades avanzadas a costes significativamente más bajos. Aunque algunos analistas consideran que el pánico actual en los mercados podría ser excesivo, lo cierto es que DeepSeek está redefiniendo las expectativas en cuanto a costes de desarrollo y capacidades tecnológicas.

Acceso y licencia

DeepSeek ha hecho público el repositorio de Janus-Pro en GitHub, facilitando su implementación y adaptación por parte de desarrolladores y empresas. La licencia MIT asegura que el modelo pueda ser utilizado y modificado sin restricciones, lo que podría impulsar su adopción en proyectos de diversa índole.

Conclusión

Con Janus-Pro, DeepSeek no solo refuerza su posición como líder en el desarrollo de IA multimodal, sino que también desafía a los actores dominantes en la generación de imágenes. Su enfoque innovador y su modelo de licencia abierta podrían acelerar la adopción de tecnologías de IA en sectores como el diseño gráfico, la publicidad y la creación de contenidos, marcando un nuevo hito en la evolución de la inteligencia artificial.

Más información y acceso al modelo están disponibles en el repositorio oficial de GitHub.


Referencia: Chen, X., Wu, Z., Liu, X., Pan, Z., Liu, W., Xie, Z., Yu, X., & Ruan, C. (2025). Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling.

Scroll al inicio