SDXL y ControlNets para visualizaciones de datos realistas

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Karim Jedda, ingeniero de software, publicó en septiembre de 2023 un experimento que muestra cómo combinar Stable Diffusion XL (SDXL) con ControlNets para convertir gráficos de datos convencionales en imágenes realistas que mantienen la estructura del original. Un gráfico de barras sobre emisiones de CO2 pasa a mostrar chimeneas cuya altura refleja los datos; otro sobre uso de monedas se convierte en pilas apiladas. La información estadística sigue intacta, pero el impacto visual cambia por completo.

El problema con los gráficos convencionales

Las barras y líneas son precisas pero abstractas. Una barra que sube no transmite lo mismo que una chimenea que crece. El lector procesa el dato, pero no lo conecta con nada concreto, algo que pesa en presentaciones o informes de sostenibilidad que compiten por la atención con otros estímulos visuales.

Los diseñadores llevan años usando infografías para dar contexto a los números. Lo que cambia aquí es que el proceso puede automatizarse con IA generativa, sin necesitar un diseñador por cada pieza.

Cómo funciona la combinación SDXL + ControlNets

Stable Diffusion es un modelo de generación de imágenes a partir de texto que usa difusión latente. Por defecto genera imágenes desde un prompt sin restricciones de forma o estructura. Los ControlNets añaden una capa de control: permiten pasar una imagen de referencia para que el modelo respete determinadas estructuras visuales —bordes, siluetas, poses— mientras aplica el estilo indicado en el prompt.

En el experimento de Jedda, el gráfico de barras original actúa como imagen de referencia para el ControlNet. El modelo genera una imagen que respeta la estructura de barras (forma y altura de cada columna) y la transforma en algo real: una chimenea, un árbol, una pila de objetos. El resultado es una imagen donde la información cuantitativa sigue siendo legible porque las proporciones se mantienen, aunque el diseño no tenga nada de gráfico convencional.

Ejemplo de transformación de gráfico de barras en visualización IA con Stable Diffusion

Ejemplos prácticos

El caso de las emisiones de CO2 funciona porque existe una metáfora visual directa: chimeneas. La barra más alta se convierte en la chimenea más alta y el lector no compara etiquetas del eje Y, sino directamente el tamaño visual de cada objeto. El ejemplo de las monedas sigue la misma lógica: cada barra pasa a ser una pila y la diferencia entre períodos se percibe de inmediato porque el volumen visual es proporcional al valor del dato.

Otros casos de uso que sugiere el método: consumo energético representado con bombillas o paneles solares, crecimiento poblacional con edificios o siluetas de personas, evolución de precios con objetos físicos cuyo tamaño crece con el valor.

Limitaciones del método

La generación no siempre es predecible. SDXL puede producir resultados inesperados cuando la estructura del gráfico original es compleja o las proporciones son muy pequeñas. Conseguir una imagen estéticamente correcta y fiel a los datos requiere varios ajustes.

Hay un riesgo real de sacrificar precisión por estética: si las proporciones se distorsionan durante la generación, el gráfico puede inducir a error. Por eso el autor recomienda usar estas visualizaciones como complemento de los datos originales, no como sustituto. La imagen impacta, pero el dato exacto debe seguir accesible.

El proceso requiere una GPU potente para correr SDXL y los ControlNets con tiempos de generación razonables. Esto lo hace más accesible para equipos con infraestructura propia o acceso a plataformas cloud con aceleración de hardware, como las que NVIDIA está transformando para la era de la IA. El coste computacional sigue siendo determinante, algo que convierte la brecha de acceso en un factor de competitividad real para quienes quieran aplicar estas técnicas a escala. La industria ya mide la IA más por coste por tarea que por capacidad bruta, y esta técnica no es una excepción.

Cómo empezar

El flujo básico: exportar el gráfico como imagen en blanco y negro o escala de grises (para que el ControlNet detecte mejor la estructura), elegir el tipo de ControlNet apropiado (Canny para bordes, Depth para profundidad), escribir un prompt que describa la transformación deseada y ajustar el peso del ControlNet para controlar cuánto influye la imagen de referencia en el resultado final.

El experimento completo, con código y ejemplos, está documentado por Jedda en su publicación original.

Preguntas frecuentes

¿Qué es un ControlNet en Stable Diffusion?

Es una extensión de Stable Diffusion que añade control estructural al proceso de generación. Permite pasar una imagen de referencia para que el modelo respete su estructura (bordes, silueta, profundidad) mientras aplica el estilo del prompt de texto.

¿La visualización resultante mantiene la precisión estadística?

En principio sí, porque la estructura del gráfico original actúa como guía. Las proporciones pueden distorsionarse durante la generación, así que se recomienda usar estas imágenes como complemento del gráfico original, no como reemplazo.

¿Qué versión de Stable Diffusion se usa?

El experimento usa SDXL (Stable Diffusion XL), la versión con mayor resolución y detalle del modelo base de Stability AI. Los ControlNets específicos para SDXL están disponibles en Hugging Face y en las interfaces Automatic1111 o ComfyUI.

¿Qué tipo de gráficos funciona mejor con esta técnica?

Los de barras son los que mejor se prestan porque la correspondencia entre la altura de la barra y el objeto visual (chimenea, pila de monedas) es directa. Los de líneas o dispersión son más complejos de transformar sin perder legibilidad.

¿Cuánta potencia de cómputo necesito?

Al menos 8 GB de VRAM para correr SDXL con ControlNets con fluidez. Una GPU de gama media-alta o acceso a plataformas de inferencia en la nube es suficiente para experimentos. La generación por lotes puede requerir más recursos o tiempos más largos.