Stable Diffusion: qué es y cómo funciona el modelo de IA

Q: ¿Qué son los LoRA y los modelos de la comunidad?

Un LoRA ( Low-Rank Adaptation ) es un fichero pequeño que modifica el comportamiento del modelo base para enseñarle un estilo, un personaje o un concepto concreto. En sitios como Civitai o Hugging Face hay miles de LoRAs y checkpoints entrenados por la comunidad sobre SD 1.5, SDXL o SD3.

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Stable Diffusion es un modelo de inteligencia artificial que genera imágenes a partir de texto. Lo lanzó Stability AI en agosto de 2022 junto con el grupo CompVis de la Universidad de Múnich (LMU) y la empresa Runway. La novedad de fondo no fue la calidad de las imágenes, sino una decisión muy concreta: publicar los pesos del modelo bajo una licencia permisiva (CreativeML Open RAIL-M) para que cualquiera pudiera descargarlo, afinarlo y ejecutarlo en una GPU de consumo. Desde entonces es la base de buena parte del software abierto de generación de imagen.

Para entender el impacto conviene fijar la fecha. Cuando salió Stable Diffusion 1.4, los modelos comparables (DALL·E 2 de OpenAI y Midjourney) eran cerrados, de pago y solo accesibles vía web. Stability publicó los pesos en Hugging Face y la comunidad montó interfaces, scripts de entrenamiento y miles de modelos derivados en cuestión de semanas. Esa decisión marca el ritmo del sector desde entonces: cada vez que aparece un nuevo modelo de imagen abierto, lo primero que hace todo el mundo es compararlo con la familia Stable Diffusion.

Qué hace exactamente Stable Diffusion

Recibe un texto (el llamado prompt) y devuelve una imagen coherente con ese texto. Sirve para texto a imagen, imagen a imagen, inpainting (reemplazar una zona concreta), outpainting (extender la imagen más allá del lienzo original) y upscaling. Con modelos derivados como ControlNet o LoRAs se puede guiar la salida con bocetos, mapas de profundidad o fotos de referencia para mantener la pose o el rostro de un personaje entre imágenes.

Cómo funciona por dentro

Stable Diffusion es un modelo de difusión latente (LDM, latent diffusion model), publicado originalmente en el paper High-Resolution Image Synthesis with Latent Diffusion Models (Rombach et al., CVPR 2022). La idea de fondo es no trabajar directamente sobre los píxeles, sino sobre una versión comprimida de la imagen en un espacio latente más pequeño. Eso reduce muchísimo el coste de cómputo y es la razón por la que puede correr en una GPU doméstica.

El proceso, sin entrar en derivadas, tiene tres piezas:

Un autoencoder variacional (VAE) que convierte la imagen entre píxeles y el espacio latente.
Una U-Net que aprende a quitar ruido paso a paso dentro del espacio latente.
Un codificador de texto (CLIP en SD 1.x y SD 2.x, OpenCLIP en SDXL, T5 + CLIP en SD3) que traduce el prompt a un vector que condiciona el proceso de denoise.

En la práctica, el modelo arranca de ruido puro y, en torno a 20-50 pasos, va prediciendo el ruido que sobra y restándolo hasta que aparece una imagen reconocible. Cuantos más pasos uses, más control tienes sobre el detalle, pero también tarda más. La temperatura de ese proceso se ajusta con el llamado CFG (classifier-free guidance): valores bajos dan imágenes más libres y fotográficas, valores altos pegan más al prompt pero con artefactos.

Versiones y qué cambia entre ellas

SD 1.4 (agosto 2022) y SD 1.5 (octubre 2022): la base sobre la que se entrenaron miles de modelos comunitarios. Resolución nativa de 512×512 píxeles.
SD 2.0 / 2.1 (finales de 2022): codificador de texto OpenCLIP, mejor anatomía y resolución nativa de 768×768. Hubo polémica por filtrar contenido del dataset y degradar la generación de personas, lo que hizo que parte de la comunidad siguiera con la 1.5.
SDXL 1.0 (julio 2023): salto fuerte en calidad y composición. Resolución nativa 1024×1024, dos codificadores de texto y un modelo refinador opcional. Mucho mejor con prompts cortos.
SD3 / SD3.5 (2024): arquitectura Multimodal Diffusion Transformer (MMDiT), tipografía dentro de la imagen mucho más fiable y mejor adherencia al prompt en escenas con varios sujetos. NVIDIA y Stability AI han trabajado además en optimizaciones que reducen un 40% el uso de memoria con TensorRT en GPUs RTX, lo que abre SD3.5 a equipos con menos VRAM.

Junto a estas versiones oficiales conviven dos familias relacionadas que conviene no mezclar: Stable Cascade, una propuesta intermedia de Stability AI con resultados muy buenos, y Stable Video Diffusion, dirigido a vídeo corto. Y, en el flanco abierto, han aparecido modelos como Z-Image, que comparten filosofía open source y compiten directamente con SDXL en eficiencia.

Qué hace falta para usarlo

Para SD 1.5 sirve una GPU NVIDIA con 4-6 GB de VRAM. Para SDXL la cifra cómoda son 8-12 GB; con menos se puede tirar usando optimizaciones como xformers o cargando solo el modelo base sin refinador. SD3 ya pide al menos 12 GB para trabajar fino, aunque las últimas optimizaciones de NVIDIA y Stability AI sobre SD 3.5 han bajado bastante esa exigencia. También corre en GPUs AMD (vía ROCm o DirectML) y en Apple Silicon usando MPS, aunque más lento.

En cuanto al software, las tres puertas de entrada son:

Automatic1111 / Forge: la interfaz web clásica, todoterreno, con un ecosistema enorme de extensiones.
ComfyUI: editor por nodos. La curva inicial es más alta, pero da control quirúrgico sobre el pipeline y se ha vuelto el estándar para flujos avanzados.
InvokeAI o Fooocus: orientados a artistas y equipos de producción, con menos opciones a la vista pero resultados muy pulidos por defecto.

Quien no quiera instalar nada puede usar versiones gestionadas en Hugging Face Spaces, Replicate, Civitai o el propio playground de Stability. La penalización es la latencia y el coste por imagen; la ventaja, no pelearte con drivers.

Para qué se está usando

Diseño y publicidad: bocetos rápidos, variaciones de moodboard, retoque por inpainting.
Cine, videojuegos y animación: concept art, mapas de texturas, fondos para previsualización.
Producto y e-commerce: cambios de fondo, generación de variantes de color, fotomontajes coherentes.
Investigación: base para nuevas arquitecturas, modelos de control y pipelines multimodales.

Frente a alternativas cerradas como ChatGPT Imágenes 2.0 o las capacidades de imagen de Gemini, el argumento de Stable Diffusion sigue siendo el mismo: control total del flujo, datos en local y posibilidad de afinarlo con tus propias imágenes.

Lo que no funciona y la letra pequeña

Stable Diffusion sigue cojeando en lo de siempre: manos y dedos, números, texto dentro de la imagen (mejor en SDXL y SD3, pero aún irregular), anatomía humana en poses complejas y consistencia entre fotogramas para vídeo. Herramientas como Unfake.js han aparecido precisamente para corregir esos artefactos cuando la imagen se va a usar en producción.

Hay también dos asuntos abiertos que conviene tener claros antes de meterlo en un flujo profesional. El primero es el dataset: las versiones 1.x y 2.x se entrenaron con un subconjunto de LAION-5B, una base scrapeada de la web que ha sido objeto de demandas en EE. UU. y de revisión en Europa. El segundo es la licencia y los derechos de uso comercial, que han ido cambiando entre versiones y entre Stability AI y la Stability Membership; antes de usarlo en un cliente, leer la licencia exacta de la versión concreta que tengas instalada no es opcional.

Preguntas frecuentes

¿Stable Diffusion es gratis?

Los pesos de los modelos hasta SDXL se publicaron con licencia abierta y se pueden descargar desde Hugging Face sin coste. SD3 y los modelos posteriores tienen una licencia comercial específica de Stability AI, gratuita para uso personal y de investigación, pero con condiciones para empresas que superen ciertos umbrales de ingresos.

¿Qué diferencia hay entre Stable Diffusion y Midjourney o DALL·E?

Stable Diffusion es open source y se puede ejecutar en local, mientras que Midjourney y DALL·E son servicios cerrados a los que se accede vía web o API. La calidad por defecto suele ir a favor de los servicios cerrados; la flexibilidad y el control, a favor de Stable Diffusion.

¿Necesito una GPU potente para usarlo?

Para SD 1.5 sirve una GPU con 4-6 GB de VRAM. Para SDXL son recomendables 8-12 GB. SD3 trabaja con soltura a partir de 12 GB. También se puede usar en CPU o en MacBooks con chip Apple Silicon, pero los tiempos de generación se disparan.

¿Qué son los LoRA y los modelos de la comunidad?

Un LoRA (Low-Rank Adaptation) es un fichero pequeño que modifica el comportamiento del modelo base para enseñarle un estilo, un personaje o un concepto concreto. En sitios como Civitai o Hugging Face hay miles de LoRAs y checkpoints entrenados por la comunidad sobre SD 1.5, SDXL o SD3.

¿Puedo usar imágenes de Stable Diffusion para uso comercial?

Depende de la versión y de la licencia. Las versiones 1.x y SDXL bajo Open RAIL-M permiten uso comercial siempre que respetes las restricciones de uso (no contenido ilegal, no suplantación, etc.). En SD3 y posteriores hay que revisar la licencia comercial vigente. Y, en cualquier caso, las imágenes generadas pueden tener problemas de derechos si replican estilo o rostro de terceros sin permiso.