Google acelera la creación visual con Nano Banana 2 Lite y Gemini Omni Flash

Google Cloud ha incorporado dos nuevos modelos creativos a Gemini Enterprise Agent Platform con un objetivo claro: llevar la generación y edición de imagen y vídeo a flujos de trabajo empresariales más rápidos, baratos y gobernables. La compañía ha anunciado la disponibilidad general de Nano Banana 2 Lite, también identificado como Gemini 3.1 Flash-Lite Image, y la vista previa pública de Gemini Omni Flash, un modelo orientado a generación y edición conversacional de vídeo.

La noticia no va solo de crear imágenes o clips más vistosos. Google está colocando estos modelos dentro de una plataforma para agentes empresariales, lo que apunta a un cambio más amplio: la creación audiovisual con IA empieza a integrarse en aplicaciones, campañas, herramientas de diseño, entornos de marketing y flujos automatizados donde velocidad, coste, control y trazabilidad importan tanto como la calidad final.

Nano Banana 2 Lite apunta a un uso de alta frecuencia: generar imágenes rápido, probar variaciones, crear conceptos visuales, hacer localizaciones publicitarias o alimentar aplicaciones donde la latencia y el coste son decisivos. Gemini Omni Flash, por su parte, se centra en vídeo: edición por conversación, cambios de personajes o productos, transferencia de estilo, relighting, generación con audio nativo y sincronización de texto y acción en pantalla.

Gemini Omni Flash: vídeo editable con lenguaje natural

Gemini Omni Flash llega en vista previa pública como un modelo de vídeo pensado para integrarse en aplicaciones y flujos agénticos. Su propuesta es que el usuario pueda generar, modificar y refinar piezas audiovisuales sin cambiar de plataforma ni depender de una cadena manual de herramientas. En lugar de abrir un editor, buscar capas, ajustar parámetros y exportar varias veces, el modelo permite pedir cambios en lenguaje natural.

Gemini Omni Flash and Nano Banana

Google destaca cuatro áreas principales. La primera es la edición conversacional: cambiar personajes, modificar iluminación, alterar ángulos o retocar escenas manteniendo pistas originales de audio y vídeo. La segunda es la entrada multimodal, con combinación de texto, imágenes y vídeo para guiar la generación. La tercera es el uso de conocimiento del mundo y simulación, pensado para mejorar coherencia física, contexto histórico, científico o cultural. La cuarta es la sincronización entre texto y acción, con capacidad para generar tipografía legible y gráficos integrados en movimiento.

ModeloEstadoUso principalPrecio destacado
Nano Banana 2 LiteDisponibilidad generalImagen rápida y edición visual coste-eficienteEn documentación de Agent Platform
Gemini Omni FlashVista previa públicaGeneración y edición conversacional de vídeo0,10 dólares por segundo de vídeo generado

El precio publicado para Gemini Omni Flash es de 0,10 dólares por segundo de vídeo de salida, una cifra con la que Google quiere competir en el terreno de la relación precio-rendimiento para generación y edición audiovisual. La compañía también advierte de que algunas funciones, como referencias de audio y vídeo, último fotograma, extensión de escena y resoluciones superiores, llegarán más adelante a través de la API de Gemini Enterprise Agent Platform.

La incorporación de clientes tempranos también ayuda a entender el enfoque. Adobe habla de integrar estos modelos en Firefly para acelerar el paso de idea a contenido terminado. WPP los ha probado dentro de WPP Open, su plataforma de marketing agéntico, con casos como localización de assets, sustitución precisa de productos y transferencias dinámicas de estilo. Invideo, por su parte, destaca posibilidades híbridas entre rodajes tradicionales y capacidades de IA.

Nano Banana 2 Lite: imagen rápida para iterar sin esperar

Nano Banana 2 Lite es la pieza más orientada a velocidad y coste. Google lo presenta como el modelo de generación y edición de imagen más rápido y eficiente dentro de la familia Nano Banana. Puede generar imágenes en apenas cuatro segundos, según la compañía, lo que lo coloca en un terreno interesante para prototipos, anuncios, diseño de interfaces, pruebas A/B, social apps, ecommerce y flujos automatizados que necesitan muchas variaciones visuales.

La mejora frente al modelo anterior, Nano Banana o Gemini 2.5 Flash Image, se centra en calidad visual, conocimiento del mundo, consistencia de personajes y objetos, y texto legible dentro de imágenes. Esta última parte es importante porque la generación de texto dentro de imagen ha sido durante años una de las debilidades de los modelos visuales. Para marketing y localización, poder probar titulares, rótulos o variantes idiomáticas directamente en una imagen reduce tiempo de producción y revisión.

Gemini Omni Flash in Adobe Firefly

Google sitúa este modelo en casos donde la generación debe ser casi instantánea. Figma lo describe como adecuado para explorar ideas en su lienzo nodal Weave. Artlist lo presenta como una forma de mantener al creador dentro del flujo creativo sin esperar a la herramienta. Manus AI afirma que lo ha probado para generación de imágenes en tiempo real dentro de flujos autónomos, desde presentaciones hasta páginas web.

La diferencia con modelos visuales más pesados puede estar en el uso. Para una pieza final muy cuidada quizá una empresa elija un modelo de mayor capacidad o un flujo con postproducción humana. Para explorar 30 conceptos, hacer variaciones por mercado, generar miniaturas, adaptar assets o probar composiciones en segundos, un modelo ligero puede aportar más valor que uno más lento y caro.

La creatividad con IA entra en flujos agénticos

El detalle más relevante del anuncio es dónde coloca Google estos modelos: en Gemini Enterprise Agent Platform. Esto no es solo una API de imagen o vídeo, sino una capa pensada para construir aplicaciones y agentes que incorporen generación multimedia en procesos más amplios.

Un agente de marketing podría leer un brief, generar variantes visuales, adaptar textos por país, crear un vídeo corto, proponer cambios y enviar opciones a revisión. Un agente de ecommerce podría mantener la consistencia de un producto, probar fondos, estilos y composiciones, y generar imágenes localizadas para campañas. Un equipo de formación podría generar vídeos explicativos con texto sincronizado y cambios de estilo sin rehacer todo desde cero.

Este movimiento acerca la IA creativa a una lógica de producción industrial. La generación no se queda en una interacción aislada con un prompt, sino que entra en pipelines con control de coste, concurrencia, seguridad y gobierno empresarial. Google menciona también provisioned throughput para Nano Banana 2 Lite desde el lanzamiento, pensado para gestionar solicitudes API de alta concurrencia a escala; Gemini Omni Flash lo recibirá más adelante.

Esa capacidad es clave para productos que no pueden depender de colas imprevisibles. Una app social, una plataforma de diseño o una herramienta de marketing que genera miles de assets al día necesita rendimiento estable, no solo buena calidad media.

Seguridad, marcas de agua y contenido verificable

El anuncio llega en un momento en el que la regulación y la autenticidad del contenido generado por IA están ganando peso. Google afirma que ambos modelos incluyen por defecto credenciales C2PA y marcas de agua imperceptibles SynthID para ayudar a verificar la autenticidad del contenido.

Esto responde a una necesidad cada vez más clara. A medida que las herramientas generan imágenes y vídeos más convincentes, las empresas necesitan mecanismos para identificar origen, mantener trazabilidad y reducir riesgos de manipulación o uso indebido. Las marcas de agua invisibles no resuelven por sí solas todos los problemas de desinformación o fraude, pero ayudan a construir una capa técnica de procedencia.

Para empresas europeas, además, estas funciones pueden ganar importancia con las obligaciones de transparencia del AI Act. Las organizaciones que publiquen contenidos generados o manipulados con IA necesitarán procesos claros para etiquetar, documentar o verificar sus piezas, especialmente en casos realistas, publicitarios o informativos.

Lo que está cambiando en el mercado audiovisual de IA

Google está entrando con más fuerza en una zona donde compiten varias categorías de actores: laboratorios de modelos, plataformas creativas, suites de diseño, agencias, herramientas de vídeo y proveedores cloud. La diferencia estará menos en “generar algo impresionante una vez” y más en integrarse bien en flujos de trabajo reales.

Para una empresa, el valor de estos modelos dependerá de varias preguntas. Cuánto cuesta producir una variante. Cuánto tarda. Qué nivel de control ofrece. Qué ocurre con personajes, objetos y marcas entre generaciones. Si el texto es legible. Si el vídeo mantiene audio y continuidad. Si se puede automatizar dentro de un agente. Si hay garantías de procedencia. Si el rendimiento se mantiene a escala.

Nano Banana 2 Lite y Gemini Omni Flash apuntan a esa dirección. Uno cubre la imagen rápida y coste-eficiente; el otro lleva la edición de vídeo hacia una interfaz conversacional y multimodal. La creatividad con IA está dejando de ser una herramienta de laboratorio para convertirse en una capa más de las aplicaciones empresariales.

La pregunta para 2026 ya no será solo qué modelo genera la imagen más bonita o el vídeo más espectacular. Será qué modelo permite crear, editar, localizar, verificar y escalar contenido dentro de un flujo de trabajo que una empresa pueda controlar.

Preguntas frecuentes

¿Qué es Nano Banana 2 Lite?
Es el modelo de generación y edición de imagen más rápido y coste-eficiente de la familia Nano Banana de Google, disponible de forma general como Gemini 3.1 Flash-Lite Image.

¿Qué aporta Gemini Omni Flash?
Es un modelo en vista previa pública para generación y edición conversacional de vídeo, con entrada multimodal, audio nativo, cambios de escena y control mediante lenguaje natural.

¿Cuánto cuesta Gemini Omni Flash?
Google indica un precio de 0,10 dólares por segundo de vídeo generado.

¿Qué empresas lo están probando?
Google cita a Adobe, WPP, Invideo, Artlist, Figma y Manus AI entre las compañías que están construyendo o probando experiencias creativas con estos modelos.

¿Incluyen marcas de agua o credenciales de contenido?
Sí. Google afirma que ambos modelos incorporan por defecto credenciales C2PA y marcas de agua imperceptibles SynthID para ayudar a verificar la autenticidad del contenido.

Scroll al inicio