La guerra por convertirse en el modelo de referencia para generación de imágenes entra en una nueva fase. Black Forest Labs ha presentado FLUX.2, una familia de modelos de “inteligencia visual” pensada no solo para sorprender con demos virales, sino para integrarse en flujos de trabajo reales de creativos, marcas y desarrolladores.
La promesa es clara: imágenes de alta calidad, consistencia de estilo y personaje, buen texto incrustado, edición avanzada y control fino, con opciones tanto open-weight para la comunidad como modelos profesionales servidos vía API.
Mucho más que imágenes bonitas
A diferencia de la primera generación FLUX.1, centrada en demostrar lo que podían hacer los modelos de imagen abiertos, FLUX.2 apunta directamente a producción. Según Black Forest Labs, el modelo es capaz de:
- Mantener coherencia de personajes, productos y estilos usando hasta 10 imágenes de referencia a la vez.
- Seguir prompts complejos y estructurados, con múltiples partes, restricciones de composición y condiciones específicas.
- Generar y editar imágenes de hasta 4 megapíxeles, preservando detalle y coherencia en iluminación, materiales y perspectiva.
- Renderizar tipografía compleja y texto legible para uso en infografías, interfaces, memes, cartelería o creatividades con copy fino.
- Respetar logos y guías de marca, algo crítico para equipos de marketing y diseño.
En la práctica, FLUX.2 quiere posicionarse como una herramienta que pueda manejar desde renders de producto y visualización hasta material de campaña, carteles con texto y assets para interfaces, sin necesidad de cambiar de modelo para cada tarea.
Un enfoque “open core”: modelos abiertos y APIs listas para producción
Black Forest Labs mantiene su filosofía de “open core”: combinar modelos abiertos que cualquiera puede inspeccionar y ejecutar con modelos profesionales pensados para empresas que necesitan escalado, SLA y herramientas de gestión.
Dentro de la familia FLUX.2 conviven varias variantes:
- FLUX.2 [pro]
Modelo de referencia para calidad visual y uso profesional, diseñado para competir con los grandes modelos cerrados. Ofrece alta fidelidad, buen seguimiento de prompts y latencias bajas, accesible vía BFL Playground y API. - FLUX.2 [flex]
Pensado para desarrolladores que quieren control total sobre el proceso de generación. Permite ajustar parámetros como:- Número de pasos (steps), para elegir entre velocidad y detalle.
- Escala de guidance, para equilibrar creatividad y adherencia al prompt.
Destaca en texto incrustado y detalles finos, lo que lo hace interesante para proyectos de diseño y UI.
- FLUX.2 [dev]
El “peso pesado” open-weight: un modelo de 32.000 millones de parámetros derivado del FLUX.2 base que combina:- Text-to-image de alta calidad.
- Edición de imagen con múltiples entradas en un solo checkpoint.
- FLUX.2 [klein] (próximamente)
Versión open source (Apache 2.0), destilada a partir del modelo base. Busca ofrecer muchas de las capacidades de FLUX.2 en un tamaño más pequeño y amigable para desarrolladores con hardware más modesto. - FLUX.2 – VAE
Un nuevo autoencoder variacional para trabajar en espacio latente, diseñado para equilibrar tres factores clave:- Facilidad de aprendizaje.
- Calidad de imagen.
- Tasa de compresión.
Este VAE sirve de base a las distintas variantes de FLUX.2 y está disponible también bajo licencia Apache 2.0.
Optimizado junto a NVIDIA: FP8 y GPUs de consumo
Uno de los grandes retos de modelos de imagen de última generación es su peso. FLUX.2 [dev], en su configuración completa, es un modelo de 32B parámetros que puede requerir del orden de 90 GB de VRAM para cargarse íntegro, algo solo al alcance de hardware profesional.
Para hacerlo más accesible, NVIDIA y Black Forest Labs han colaborado en varias optimizaciones:
- Cuantización a FP8, que reduce los requisitos de VRAM alrededor de un 40 % manteniendo una calidad comparable.
- Integración y optimizaciones específicas en ComfyUI, una de las herramientas más populares para ejecutar modelos de imagen en PC:
- Soporte para weight streaming mejorado, que permite offload parcial de pesos a memoria del sistema cuando la VRAM no basta.
- Checkpoints y rutas de ejecución optimizadas para GPUs GeForce RTX, combinando VRAM + RAM de forma más eficiente.
El resultado es que usuarios avanzados pueden experimentar con FLUX.2 en hardware de gama alta de consumo, asumiendo un cierto impacto en rendimiento cuando parte del modelo se mueve a RAM.
Qué hay bajo el capó: flujo latente y modelo multimodal
En lo técnico, FLUX.2 se apoya en:
- Una arquitectura de latent flow matching, que trabaja en un espacio latente comprimido en lugar de generar directamente en píxel, lo que mejora eficiencia y calidad.
- Un transformer de flujo rectificado que aprende relaciones espaciales, materiales, iluminación y lógica compositiva de la escena.
- Un modelo visión–lenguaje Mistral-3 de 24.000 millones de parámetros acoplado a ese backbone visual, aportando:
- Conocimiento del mundo.
- Comprensión de contexto y prompts complejos.
- Mejora de la coherencia entre instrucciones textuales y resultado visual.
La combinación apunta hacia una nueva generación de modelos multimodales, donde percepción, generación, memoria y razonamiento empiezan a integrarse en un mismo sistema.
¿Por qué importa FLUX.2?
En un mercado dominado por modelos cerrados integrados en grandes plataformas, FLUX.2 destaca por varios motivos:
- Ofrece calidad de vanguardia con una ruta clara para ejecutarlo en local gracias a sus pesos abiertos.
- Está pensado para trabajo real: campañas, producto, interfaces, creatividades con texto y logotipos, no solo arte espectacular para redes sociales.
- Su enfoque open core permite que investigadores y desarrolladores experimenten, auditen y compongan soluciones sobre sus modelos, mientras empresas pueden recurrir a APIs productivas con costes y latencias competitivos.
Black Forest Labs deja claro que su ambición no es lanzar “otro modelo de imágenes”, sino construir infraestructura base para la inteligencia visual. FLUX.2 es un paso en esa dirección: un modelo que quiere ser, más que un juguete, una pieza central de los flujos creativos de la próxima década.
vía: Flux 2



