OpenAI lanza ChatGPT Imágenes 2.0 y acelera la carrera de la IA visual

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

OpenAI ha presentado ChatGPT Imágenes 2.0, una nueva generación de su sistema de creación visual con la que quiere llevar la generación de imágenes un paso más allá del simple “texto a imagen”. La compañía lo define como un modelo de vanguardia capaz de ejecutar tareas visuales complejas, seguir instrucciones detalladas, colocar objetos con más precisión, generar texto más fiable dentro de la propia imagen y entregar resultados listos para usar desde el primer intento. La nueva versión ya está disponible en ChatGPT, Codex y la API.

El movimiento llega en un momento en el que la competencia por dominar la creación visual con Inteligencia Artificial se ha vuelto mucho más intensa. Lo interesante en este caso es que OpenAI ya no presenta la imagen como un simple complemento estético, sino como un sistema visual más amplio: una herramienta para explicar, enseñar, diseñar, resumir información y convertir una idea en material gráfico útil. Esa es, al menos, la ambición que deja ver el anuncio oficial.

La compañía sostiene que el gran salto de esta versión está en la precisión. Según OpenAI, Imágenes 2.0 mejora de forma notable en tareas que suelen fallar en muchos generadores: texto pequeño, iconografía, interfaces, composiciones densas y restricciones estilísticas sutiles. En la API, además, puede trabajar con resoluciones de hasta 2K, aunque OpenAI aclara que los resultados por encima de ese umbral siguen en beta y pueden ser inconsistentes en algunos casos.

Más texto legible, más idiomas y más formatos

Uno de los puntos donde OpenAI pone más énfasis es en la mejora del texto dentro de las imágenes. Hasta ahora, muchos generadores visuales destacaban en ilustración o fotografía, pero seguían tropezando cuando tenían que renderizar rótulos, etiquetas o materiales explicativos complejos. OpenAI afirma que Imágenes 2.0 mejora ese comportamiento y, además, amplía mucho su capacidad multilingüe, especialmente en idiomas no latinos como japonés, coreano, chino, hindi y bengalí. La idea no es solo traducir palabras sueltas, sino generar piezas visuales coherentes donde el idioma forme parte real del diseño.

También aumenta la flexibilidad en el formato. OpenAI explica que el modelo puede generar imágenes en relaciones de aspecto tan panorámicas como 3:1 y tan verticales como 1:3, lo que abre la puerta a banners, diapositivas, pósteres, pantallas móviles, marcapáginas o creatividades para redes sociales sin tener que pelearse después con recortes forzados. Es una mejora práctica, no solo cosmética, porque acerca la salida del modelo a formatos que ya existen en producción real.

En la parte estética, la empresa habla de una fidelidad más alta en varios estilos visuales: desde fotografía y fotogramas de cine hasta pixel art, manga y otros lenguajes gráficos muy marcados. OpenAI asegura que el modelo mantiene mejor las texturas, la iluminación, la composición y ciertos detalles pequeños que antes delataban con facilidad una imagen generada por IA. Esa promesa todavía tendrá que medirse con el uso real, pero sobre el papel apunta a un intento claro de reducir la sensación de “imagen artificial genérica”.

De generador a colaborador visual

La novedad más ambiciosa de ChatGPT Imágenes 2.0 está en su integración con los modelos de razonamiento. OpenAI afirma que, cuando el usuario selecciona un modelo Thinking o Pro en ChatGPT, el sistema puede dedicar más tiempo a planificar la tarea, buscar información actualizada en la web, generar varias imágenes a la vez y revisar sus propios resultados antes de entregar una respuesta. En ese contexto, Imágenes 2.0 deja de funcionar como un generador puntual y pasa a comportarse más como un “colaborador visual” que ayuda a resolver parte del trabajo entre la idea y la imagen final.

OpenAI añade que este modo permite algo especialmente útil para proyectos más complejos: crear hasta ocho imágenes coherentes en una sola solicitud, con continuidad entre personajes, objetos o escenas. Eso puede resultar relevante para páginas de manga, series de carteles, variantes de una misma campaña o conjuntos de imágenes para distintos formatos e idiomas. La diferencia frente al flujo clásico es clara: en lugar de generar una imagen y reconstruir el proyecto pieza a pieza, el usuario puede pedir ya un conjunto visual más cohesionado.

La integración con Codex refuerza esa lógica. OpenAI plantea que la generación visual dentro de Codex servirá para crear interfaces, conceptos, prototipos, presentaciones y otros materiales sin salir del mismo espacio de trabajo. En paralelo, el modelo gpt-image-2 queda disponible en la API para que empresas y desarrolladores integren estas funciones en productos, flujos creativos, herramientas de diseño, materiales educativos o campañas localizadas.

Más conocimiento del mundo, pero con límites claros

OpenAI sostiene que Imágenes 2.0 incorpora información del mundo actualizada hasta diciembre de 2025, algo que, según la compañía, debería ayudar en materiales explicativos, gráficos educativos y resúmenes visuales donde importa tanto la claridad como el contexto. Es una mejora interesante porque intenta llevar el modelo más allá del puro estilo y acercarlo a usos donde la imagen necesita ser también informativa.

Aun así, la propia empresa admite que el sistema sigue teniendo limitaciones importantes. OpenAI cita ejemplos concretos: tareas que exigen una comprensión física muy coherente, como origami o el cubo de Rubik; detalles que deben verse bien en superficies ocultas, inclinadas o invertidas; y patrones visuales extremadamente densos o repetitivos, como granos pequeños de arena. También recomienda revisar con atención etiquetas, diagramas y flechas cuando la precisión tiene que ser muy alta.

Disponibilidad y modelo de acceso

En disponibilidad, OpenAI ha optado por una estrategia bastante amplia. ChatGPT Imágenes 2.0 ya está disponible para todos los usuarios de ChatGPT, mientras que la modalidad de imágenes con pensamiento queda reservada a los planes de pago cuando se usan los modelos Thinking y Pro. En la API, el modelo se publica como gpt-image-2, con precios variables en función de calidad, resolución y tipo de entrada o salida. La propia página de precios de OpenAI lo sitúa como su modelo de referencia para generación de imágenes.

Lo que OpenAI está intentando con este lanzamiento es bastante evidente: mover la conversación desde la imagen espectacular a la imagen útil, editable y razonada. Si lo consigue o no dependerá menos de la demo oficial y más de cómo responda el modelo en el uso cotidiano de diseñadores, equipos de marketing, producto, educación y usuarios avanzados. Pero el mensaje de fondo ya está lanzado: la batalla por la IA visual entra en una fase más seria, más precisa y mucho más orientada a trabajo real.

Preguntas frecuentes

¿Qué es ChatGPT Imágenes 2.0?
Es la nueva generación del sistema de creación visual de OpenAI para ChatGPT, Codex y la API, con mejoras en precisión, renderizado de texto, multilingüismo, estilos y razonamiento aplicado a la imagen.

¿Quién puede usar ya ChatGPT Imágenes 2.0?
OpenAI indica que está disponible desde hoy para todos los usuarios de ChatGPT y también en Codex. Las funciones avanzadas de “imágenes con pensamiento” están reservadas a planes de pago cuando se seleccionan modelos Thinking o Pro.

¿Qué mejora frente a la versión anterior?
Según OpenAI, mejora sobre todo en seguimiento de instrucciones, colocación de objetos, texto pequeño o complejo dentro de la imagen, soporte de idiomas no latinos, variedad de estilos y relaciones de aspecto flexibles.

¿Cuáles son sus principales limitaciones actuales?
OpenAI reconoce que todavía puede fallar en tareas con fuerte lógica física, como origami o cubos de Rubik, y en diagramas o etiquetados extremadamente precisos, además de en texturas muy densas o repetitivas.