NVIDIA ha dado un nuevo golpe de efecto en el terreno de la inteligencia artificial generativa al optimizar el modelo Stable Diffusion 3.5 Large, uno de los más populares para la generación de imágenes por IA. Gracias a la colaboración con Stability AI y el uso avanzado del software TensorRT, la compañía ha logrado reducir el consumo de memoria en un 40% y duplicar el rendimiento en GPUs NVIDIA RTX.
Un salto de eficiencia: de 18 GB a 11 GB de VRAM
Stable Diffusion 3.5 Large, en su versión estándar, exige más de 18 GB de VRAM, lo que limita su uso a un número reducido de sistemas equipados con tarjetas gráficas de gama alta. Sin embargo, aplicando técnicas de cuantización a FP8 mediante TensorRT, NVIDIA ha conseguido reducir los requisitos de memoria a solo 11 GB, haciendo posible ejecutar el modelo incluso en tarjetas GeForce RTX 50 Series más accesibles.
La optimización permite, por ejemplo, que cinco tarjetas RTX 50 Series puedan ejecutar el modelo en paralelo desde la memoria, una capacidad antes reservada únicamente a soluciones profesionales.
TensorRT: optimización y velocidad para la IA generativa
TensorRT es el motor de inferencia de IA de NVIDIA, diseñado para aprovechar al máximo los núcleos Tensor Cores presentes en las GPUs de la marca. En esta ocasión, TensorRT no solo ha reducido el tamaño y el consumo de memoria de los modelos, sino que ha incrementado el rendimiento de Stable Diffusion 3.5 Large en 2,3 veces frente a las implementaciones tradicionales en PyTorch con BF16. Para el modelo SD3.5 Medium, la aceleración alcanza un 70% de mejora respecto al estándar.
La colaboración entre NVIDIA y Stability AI ha permitido que la cuantización y las optimizaciones lleguen directamente a los usuarios a través de Hugging Face, donde ya están disponibles los modelos mejorados. Además, se prevé el lanzamiento de Stable Diffusion 3.5 como microservicio NVIDIA NIM en julio, facilitando el acceso y despliegue a desarrolladores y empresas.
TensorRT para RTX: ahora más sencillo y universal
Otro de los grandes anuncios de NVIDIA es la disponibilidad de TensorRT para RTX como SDK independiente, presentado recientemente en Microsoft Build. Esta nueva versión permite a los desarrolladores crear motores TensorRT genéricos que se optimizan en tiempo real (“just-in-time”) en el propio dispositivo, eliminando la necesidad de precompilar engines para cada clase de GPU.
Este SDK, que ahora ocupa ocho veces menos espacio, puede integrarse fácilmente a través de Windows ML, el nuevo backend de inferencia de IA en Windows, y ya está disponible tanto en versión independiente como en la preview del ecosistema Microsoft.
Perspectiva: IA generativa más accesible y eficiente
Con estos avances, NVIDIA y Stability AI buscan democratizar el acceso a modelos de IA cada vez más complejos, reduciendo las barreras técnicas para la comunidad creativa y los profesionales. La reducción del consumo de memoria y el aumento del rendimiento son pasos fundamentales para que la IA generativa llegue a más dispositivos y usuarios, facilitando flujos de trabajo creativos, productivos y de investigación.
El anuncio de NVIDIA se ha producido en el marco de GTC Paris, el mayor evento europeo de startups y tecnología, donde Jensen Huang, fundador y CEO de NVIDIA, ha presentado las últimas innovaciones en infraestructura cloud, agentes IA y nuevas capacidades para PCs de inteligencia artificial.
Fuente: Blogs Nvidia