TensorRT Impulsa Stable Diffusion 3.5 en GPUs RTX

La inteligencia artificial generativa ha transformado la forma en que las personas crean, imaginan e interactúan con contenido digital. A medida que estos modelos de IA crecen en capacidad y complejidad, también aumentan sus requisitos de memoria de acceso aleatorio de video (VRAM). Un ejemplo de esto es el modelo Stable Diffusion 3.5 Large, que utiliza más de 18GB de VRAM, lo que limita su ejecución eficiente en muchos sistemas.

NVIDIA y Stability AI han abordado este desafío mediante la aplicación de la cuantización al modelo, permitiendo que capas no críticas del modelo sean eliminadas o ejecutadas con menor precisión. Con la ayuda de las GPU NVIDIA GeForce RTX 40 Series y la generación Ada Lovelace de NVIDIA RTX PRO, que soportan cuantización FP8, y las más recientes NVIDIA Blackwell GPUs, que añaden soporte para FP4, estas optimizaciones se hacen posibles.

La colaboración entre NVIDIA y Stability AI ha resultado en la cuantización del modelo Stable Diffusion 3.5 Large a FP8, reduciendo el consumo de VRAM en un 40%. Además, optimizaciones adicionales con el kit de desarrollo de software (SDK) NVIDIA TensorRT han duplicado el rendimiento, permitiendo generar y editar imágenes de forma más rápida y eficiente en GPUs NVIDIA RTX.

El modelo cuantizado ahora utiliza 11GB de VRAM en lugar de los 18GB originales, permitiendo que incluso cinco GPUs GeForce RTX 50 Series puedan ejecutar el modelo desde la memoria. Las mejoras obtenidas han sido posibles gracias a TensorRT, que optimiza los pesos y grafos del modelo específicamente para GPUs RTX. Esto ha resultado en un aumento de rendimiento de 2.3 veces en SD3.5 Large y un incremento de 1.7 veces en SD3.5 Medium comparado con los modelos originales en BF16 PyTorch.

Estos modelos optimizados están disponibles en la página de Stability AI en Hugging Face, facilitando su acceso para creadores y desarrolladores. Además, NVIDIA y Stability AI están trabajando para lanzar SD3.5 como un microservicio NVIDIA NIM, previsto para julio, que simplificará la implementación y despliegue del modelo en diversas aplicaciones.

NVIDIA ha lanzado el SDK TensorRT para RTX, anunciado en Microsoft Build, que está disponible como una herramienta independiente para desarrolladores. Esta nueva versión permite crear motores TensorRT genéricos optimizados directamente en el dispositivo en cuestión de segundos, significativamente más pequeño y eficiente.

Durante el evento NVIDIA GTC Paris en VivaTech, Jensen Huang, fundador y CEO de NVIDIA, destacó los últimos avances en infraestructura de IA en la nube, IA agentica e IA física, proporcionando una visión amplia de las direcciones futuras en tecnología y capacidades de IA. El evento continúa brindando múltiples oportunidades de aprendizaje y experiencia tanto presencialmente como en línea.

Cada semana, el blog RTX AI Garage ofrece innovaciones de IA impulsadas por la comunidad, explorando servicios micro y otros avances, apoyando la creatividad y productividad en PCs y estaciones de trabajo con IA de NVIDIA.
Fuente: Zona de blogs y prensa de Nvidia

Scroll al inicio