Desde 2016, NVIDIA y OpenAI han impulsado la innovación en inteligencia artificial con la introducción de NVIDIA DGX. Ahora, esta colaboración da un nuevo paso adelante con el lanzamiento de los modelos gpt-oss-20b y gpt-oss-120b, optimizados para un rendimiento de inferencia acelerado en la arquitectura Blackwell de NVIDIA. Estos modelos, diseñados para el razonamiento textual, son capaces de alcanzar hasta 1.5 millones de tokens por segundo en un sistema NVIDIA GB200 NVL72.
Los modelos gpt-oss utilizan una arquitectura de mezcla de expertos (MoE) con activaciones SwigGLU, y las capas de atención emplean RoPE con un contexto de 128k. En términos de precisión, estos modelos se presentan en FP4, permitiendo que se ejecuten en una sola GPU de centro de datos de 80 GB, plenamente soportada por Blackwell.
El gpt-oss-120b requirió más de 2.1 millones de horas de entrenamiento en GPUs NVIDIA H100 Tensor Core. Asimismo, NVIDIA trabajó con marcos de código abierto como Hugging Face Transformers y TensorRT-LLM para mejorar los núcleos y el rendimiento del modelo.
Entre las características adicionales desarrolladas se incluyen kernels de atención optimizados y soporte para MoE de baja latencia. Los nuevos modelos no solo aseguran un alto rendimiento en tiempo real, sino que también están pensados para facilitar la implementación en servidores y plataformas de desarrollo de AI de múltiples niveles.
Para los desarrolladores interesados en realizar implementaciones locales, ambos modelos pueden ser desplegados en estaciones de trabajo equipadas con GPUs NVIDIA RTX PRO o GeForce RTX AI PCs. Esto ofrece una opción accesible para realizar pruebas de manera privada y con menor latencia.
Con esta nueva generación de modelos gpt-oss, NVIDIA y OpenAI continúan ampliando las posibilidades del desarrollo de inteligencia artificial, proporcionando herramientas optimizadas para satisfacer las crecientes demandas de la industria y facilitando el acceso a tecnología de punta a un amplio espectro de desarrolladores.
Fuente: Zona de blogs y prensa de Nvidia