Google ha dado un paso adelante en la carrera por liderar la generación de imágenes con IA. La compañía ha actualizado las capacidades de Gemini en su aplicación, en AI Studio y en Vertex AI, con un nuevo modelo que promete más control, coherencia visual y facilidad de edición. La mejora llega con funciones que permiten mantener personajes consistentes entre imágenes, aplicar ediciones locales mediante instrucciones conversacionales y fusionar elementos de distintas fotos en una sola composición.
Qué hay de nuevo
- Coherencia de personajes y objetos. Gemini puede preservar la apariencia de un mismo personaje a lo largo de diferentes escenas, manteniendo rasgos y vestimenta incluso si cambian el entorno o la iluminación.
- Edición local conversacional. Basta con dar instrucciones como “cambia el sofá a azul marino” o “elimina el coche del fondo” para modificar un elemento sin regenerar toda la escena.
- Fusión de múltiples imágenes. El sistema puede tomar dos o más imágenes y combinarlas en una nueva composición, respetando proporciones, sombras y contexto.
- Adaptación de estilos. Es posible transferir la estética de un concepto (una paleta, un estilo artístico, una textura) a otro, manteniendo el sujeto original.
- Disponibilidad multientorno. El modelo está accesible en la app de Gemini, en Google AI Studio y en Vertex AI a través de la API.
- Seguridad y trazabilidad. Todas las imágenes incluyen SynthID, una marca digital invisible, y, en algunos casos, una marca visible, lo que aporta transparencia para medios y agencias.
Cómo construir un prompt eficaz
Google recomienda seis elementos clave para obtener mejores resultados:
- Sujeto: quién o qué aparece en la imagen.
- Composición: cómo se encuadra la escena.
- Acción: qué está sucediendo.
- Lugar: dónde ocurre.
- Estilo: estética deseada (acuarela, fotorrealismo, cómic, etc.).
- Instrucciones de edición: cambios específicos cuando se trabaja sobre una imagen existente.
Ejemplos prácticos
- Personaje consistente: primero defines un personaje (“una mecánica espacial con mono naranja”), luego lo reutilizas en distintos escenarios (“la misma mecánica reparando un dron en exterior con luz de atardecer”).
- Edición local: sobre la foto de un salón, se puede pedir “cambia el sofá a azul marino” y después “añade tres libros apilados en la mesa”.
- Fusión de imágenes: combinar a “un ciclista con casco” con una “carretera costera nublada” para mostrarlo pedaleando en ese entorno.
- Transferencia de estilo: transformar la foto de una moto clásica en un “dibujo arquitectónico de líneas finas”.
Casos de uso destacados
- E-commerce y marketing: crear catálogos con modelos o productos consistentes, variando colores y escenarios sin rehacer todo desde cero.
- Diseño de interiores: modificar estilos, texturas o iluminación en fotos reales para generar moodboards o propuestas rápidas.
- Narrativa visual: mantener personajes coherentes en storyboards o ilustraciones para publicaciones.
- Prototipado de producto: superponer renders CAD en escenas reales y variar materiales de manera precisa.
Buenas prácticas
- Mantener una conversación continua para preservar la coherencia de personajes.
- Ir de lo general a lo específico: primero encuadre y luz, luego detalles.
- Evitar instrucciones contradictorias (“minimalista” y “recargado” a la vez).
- Usar referencias de perspectiva o lente para obtener proporciones más realistas.
- Iterar con cambios pequeños y precisos en lugar de rehacer toda la escena.
Limitaciones actuales
- Texto en imágenes: la ortografía y el diseño tipográfico aún fallan.
- Escenas densas: en composiciones muy complejas, la escala u oclusión de objetos pequeños puede no ser coherente.
- Formatos: aunque se puede pedir un aspecto concreto (por ejemplo, 16:9), no siempre se respeta al milímetro.
- Diversidad y sesgos: conviene detallar explícitamente características culturales, físicas o estéticas si se busca representación inclusiva.
Comparativa con otras herramientas
- Frente a editores tradicionales como Photoshop: Gemini se centra en la edición conversacional y en la coherencia de personajes sin depender de máscaras manuales.
- Frente a generadores artísticos como Midjourney o Stable Diffusion: destaca por el control semántico, la integración en entornos empresariales (Vertex AI) y el enfoque en seguridad y trazabilidad.
Preguntas frecuentes (FAQ)
¿Dónde puedo usar la nueva generación de imágenes de Gemini?
En la app de Gemini, en Google AI Studio y a través de la API de Vertex AI.
¿Puedo mantener el mismo personaje en varias imágenes?
Sí, siempre que lo definas con detalle y continúes en la misma conversación o sesión.
¿Se pueden editar partes concretas sin rehacer toda la escena?
Sí, mediante instrucciones locales en lenguaje natural, como “cambia X”, “añade Y” o “elimina Z”.
¿Cómo se garantiza la transparencia en las imágenes generadas?
Todas incluyen SynthID, una marca de agua digital invisible, y en algunos casos, una marca visible para identificar contenido generado por IA.
vía: blog.google