Cómo ha evolucionado Midjourney: un prompt, cinco versiones

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

El mismo prompt, “Yoda selfie”, aplicado a las sucesivas versiones de Midjourney muestra uno de los ejemplos más concretos del ritmo de mejora de la IA generativa de imagen. En menos de dos años, el modelo pasó de producir formas abstractas apenas reconocibles a generar retratos con coherencia facial, iluminación realista y detalles de piel.

La comparativa que lo ilustra

@RubenHssd publicó en Twitter una imagen que coloca los resultados del mismo prompt en las distintas versiones de Midjourney, de la v1 a la v5. El contraste es evidente: las primeras versiones generaban formas imprecisas con referencias vagas al personaje; la versión más reciente produce una imagen fotográfica con expresión facial definida y fondo contextual.

Qué cambió entre versiones

Midjourney v1, lanzada en marzo de 2022, producía imágenes de baja resolución con composiciones inestables. Era funcional para arte abstracto, pero falló en representaciones de personajes reconocibles. La v2 y la v3 mejoraron la coherencia general pero seguían produciendo imágenes con distorsiones notables en rostros y manos.

La v4, a finales de 2022, fue el primer salto cualitativo importante: mejoró la comprensión semántica del prompt y la consistencia interna de los objetos. La v5, lanzada en marzo de 2023, introdujo una calidad fotorrealista en escenas y retratos que cambió el punto de referencia del sector. Midjourney v5.1 refinó la coherencia y redujo las generaciones que se desvían del prompt.

Por qué avanza tan rápido la IA de imagen

Tres factores explican el ritmo de mejora. El primero son los modelos más grandes: más parámetros permiten capturar relaciones más complejas entre texto e imagen. El segundo son los datos de entrenamiento curados: las preferencias que los usuarios expresan al elegir entre variantes de imagen generan señal de retroalimentación implícita (similar al RLHF, aprendizaje por refuerzo con retroalimentación humana). El tercero son las mejoras en los propios algoritmos de difusión, que han ganado eficiencia y control sobre el proceso de generación.

Investigaciones paralelas, como StyleDrop de Google, demuestran que el fine-tuning eficiente con pocas imágenes de referencia es otro vector de mejora activo. El sector de IA de imagen generativa no va a ralentizarse en el corto plazo.

Limitaciones que persisten

La mejora es notable, pero los modelos actuales siguen teniendo puntos débiles conocidos: las manos siguen generando distorsiones en escenas complejas, el texto dentro de las imágenes es errático y el control preciso sobre la composición requiere prompts muy detallados. La consistencia entre imágenes generadas (que el personaje tenga el mismo aspecto en dos escenas distintas) sigue siendo un reto sin resolver completamente.

El prompt “Yoda selfie” es un test fácil de evaluar porque el personaje es muy reconocible y la escena es simple. Las mejoras son más variables cuando el prompt es ambiguo o pide elementos que el modelo ha visto poco en el entrenamiento.

Preguntas frecuentes sobre la evolución de Midjourney

¿Cuántas versiones tiene Midjourney?

En junio de 2023, Midjourney había lanzado cinco versiones principales (v1 a v5) más revisiones menores como la v5.1. Cada versión principal ha supuesto una mejora visible en la calidad y coherencia de las imágenes generadas.

¿Midjourney es de código abierto?

No. Midjourney es un servicio cerrado accesible a través de Discord y la web oficial. Los pesos del modelo no están disponibles públicamente, a diferencia de alternativas como Stable Diffusion.

¿Cómo se accede a Midjourney?

A través del servidor de Discord de Midjourney o de su interfaz web. Requiere una suscripción de pago; la versión gratuita fue eliminada en 2023.

¿Por qué Midjourney sigue teniendo problemas con las manos?

Las manos humanas son geométricamente complejas y varían mucho según el ángulo y la postura. Los modelos de difusión aprenden patrones estadísticos de imágenes, y las manos son uno de los elementos con mayor variabilidad y menor consistencia en los datos de entrenamiento. Las versiones más recientes han mejorado, pero el problema no está resuelto.

Imagen de @RubenHssd en Twitter.