La tecnología de inteligencia artificial ha dado un paso significativo con el liderazgo de NVIDIA Blackwell en los nuevos benchmarks InferenceMAX v1 de SemiAnalysis. Este avance sitúa a la plataforma en una posición destacada al ofrecer el mejor rendimiento y eficiencia global para fábricas de IA.
Los benchmarks InferenceMAX v1 son los primeros en medir el costo total de computación en escenarios del mundo real, arrojando resultados impresionantes para NVIDIA. La plataforma Blackwell no solo lidera en rendimiento, sino que también se destaca en eficiencia al proporcionar un retorno de inversión sin precedentes.
Un ejemplo tangible es el sistema NVIDIA GB200 NVL72, el cual puede convertir una inversión de 5 millones de dólares en 75 millones en ingresos por tokens DSR1, multiplicando por 15 veces el retorno de la inversión. Además, las optimizaciones de software en NVIDIA B200 han reducido el costo por millón de tokens a solo dos centavos en el modelo gpt-oss, lo que representa un costo cinco veces menor en apenas dos meses.
La demanda por la inferencia en IA —la capacidad de un modelo para procesar y generar respuestas más complejas— está en aumento, y NVIDIA responde con su sistema Blackwell que ofrece un rendimiento óptimo para tareas intensivas. Con su capacidad para procesar 60,000 tokens por segundo por cada GPU y 1,000 tokens por segundo por usuario, la plataforma establece un nuevo estándar en velocidad y capacidad de respuesta.
El vicepresidente de computación de alto rendimiento en NVIDIA, Ian Buck, destacó: “La inferencia es el área donde la IA aporta valor diariamente. Estos resultados demuestran que el enfoque de pila completa de NVIDIA proporciona el rendimiento y la eficiencia necesarios para implementar IA a gran escala”.
Los benchmarks InferenceMAX v1 no solo miden velocidad, sino también eficiencia económica a gran escala. La colaboración abierta con modelos como gpt-oss de OpenAI, Llama 3 de Meta, y DeepSeek R1 demuestra cómo las innovaciones comunitarias están elevando el estándar en razonamiento y eficiencia.
NVIDIA también ha anunciado avances en optimización de software. El conjunto TensorRT LLM, a través de técnicas avanzadas de paralelización y el uso del NVLink Switch de NVIDIA, ha mejorado significativamente el rendimiento del modelo gpt-oss-120b. Además, la introducción del modelo gpt-oss-120b-Eagle3-v2 con decodificación especulativa reduce la latencia y aumenta el rendimiento, triplicando la velocidad a 100 tokens por segundo por usuario.
En conclusión, NVIDIA Blackwell no solo redefine los límites en rendimiento, sino que también establece nuevos estándares en eficiencia energética y costos, con una reducción de 15 veces en el costo por millón de tokens comparado con la generación anterior. Estos avances no solo fomentan la innovación, sino que también impulsan la adopción más amplia de IA, generando un impacto económico significativo y extendiendo el alcance de las fábricas de inteligencia en el mundo.
Fuente: Zona de blogs y prensa de Nvidia