Cómo generar imágenes consistentes con DALL-E 3

Uno de los problemas clásicos de los generadores de imágenes con IA es la consistencia de personajes: cada vez que pides una imagen del mismo personaje, el modelo lo dibuja distinto. DALL-E 3, integrado en ChatGPT, reduce ese problema gracias a su comprensión del texto, y con una técnica concreta se pueden encadenar imágenes del mismo personaje en distintas situaciones sin perder coherencia visual.

El método lo desarrollaron los investigadores @umesh_ai y @LearnAI_MJ, y se basa en asignar un identificador numérico a cada imagen y construir los prompts sobre un mensaje base. No requiere herramientas externas ni acceso a la API de OpenAI: funciona desde la interfaz de ChatGPT con DALL-E 3 activo.

Cómo funciona el sistema de semilla numérica

El truco es sencillo: cada prompt termina con un número que actúa como semilla visual. Al mantener ese número y modificar el resto del prompt, el modelo tiende a preservar los rasgos del personaje mientras actualiza solo lo que se le pide. El sistema funciona en tres pasos:

  1. Define el mensaje base: una descripción corta y clara del personaje. Ejemplo: «retrato de un hombre de 30 años llamado Bruno con cabello corto». Este texto es el ancla de todas las variaciones.
  2. Añade el identificador: al final del prompt, añade un número con guión, empezando por -0000. Cada variación sube en uno: -0001, -0002, etc.
  3. Construye las variaciones: para cada nueva imagen, mantén el mensaje base y añade los cambios al final, antes del identificador. DALL-E 3 interpreta la instrucción completa y ajusta solo lo que se le pide.

Ejemplo práctico con Bruno

El personaje de prueba es Bruno, un hombre ficticio de 30 años. La secuencia de prompts para generarlo y modificarlo:

  • Imagen inicial: «retrato de un hombre de 30 años llamado Bruno con cabello corto -0000»
  • Añadir chaqueta roja: «retrato de un hombre de 30 años llamado Bruno con cabello corto usando una chaqueta roja -0001»
  • Añadir sonrisa: «retrato de un hombre de 30 años llamado Bruno con cabello corto usando una chaqueta roja y sonriendo -0002»
Secuencia de imágenes consistentes de Bruno generadas con DALL-E 3

Otros estilos: cómic y diseño

El método no se limita al estilo realista. Si cambias el inicio del mensaje base a un estilo concreto, el resto de la secuencia respeta ese estilo:

  • Estilo cómic: «ilustración al estilo cómic de un hombre de 30 años llamado Bruno con cabello corto usando una camisa verde con fondo de horizonte de ciudad -0000»

Para que ChatGPT no reinterprete el prompt (algo que tiende a hacer por defecto), conviene activar la instrucción personalizada @DMP, que le indica al modelo que use el texto tal como está, sin modificaciones. Eso mejora la fidelidad entre lo que escribes y lo que el modelo genera.

Aplicaciones para creadores y diseñadores

Esta técnica tiene aplicaciones directas para diseñadores gráficos, ilustradores y creadores de contenido que necesitan personajes recurrentes: webcomics, materiales de marketing, presentaciones o storyboards. La IA actúa como asistente de bocetado rápido, no como sustituto del trabajo de diseño final.

DALL-E 3 tiene sus límites: no genera imágenes de personas reales identificables, aplica restricciones de contenido y la consistencia se degrada en secuencias muy largas. Para flujos de trabajo que requieran control total, Stable Diffusion con LoRA o Midjourney con semillas fijas dan más margen. Entender cómo funcionan los modelos de lenguaje que procesan los prompts ayuda a sacarles más partido.

Para quien quiere llevar estas herramientas a infraestructura propia, proyectos como Odysseus ya permiten ejecutar modelos avanzados sin depender de APIs externas. La formación técnica en este área también ha crecido, con planes de 500 horas orientados a infraestructura de IA.

Preguntas frecuentes

¿Qué es DALL-E 3 y cómo se diferencia de versiones anteriores?

DALL-E 3 es el modelo de generación de imágenes de OpenAI, integrado en ChatGPT desde septiembre de 2023. Su principal mejora respecto a DALL-E 2 es la comprensión del texto: interpreta prompts más complejos con mayor precisión y reduce los errores de escritura en las imágenes generadas.

¿La técnica de semilla numérica garantiza consistencia perfecta?

No garantiza consistencia perfecta, pero la mejora en secuencias cortas. Con cambios muy radicales de escena los rasgos del personaje pueden variar. Para proyectos que requieran consistencia absoluta conviene usar Stable Diffusion con control de semilla real.

¿Se puede usar esta técnica con otros generadores de imágenes?

El sistema de números al final del prompt es específico de DALL-E 3 en ChatGPT. Midjourney tiene su propio sistema de semillas con el parámetro --seed. Stable Diffusion permite fijar la semilla directamente en la interfaz, con mayor control técnico.

¿Puedo generar personajes reales con DALL-E 3?

No. OpenAI prohíbe generar imágenes de personas reales identificables. DALL-E 3 rechaza prompts que incluyan nombres de personas públicas o celebridades. El ejemplo de Bruno funciona porque es un personaje ficticio sin referencia real.

Scroll al inicio