Presentación de NVFP4 para Inferencia de Baja Precisión Eficiente y Precisa

NVIDIA ha dado un paso más en la evolución tecnológica con la introducción de NVFP4, un innovador formato de punto flotante de 4 bits diseñado para su nueva arquitectura Blackwell. Este desarrollo tiene como objetivo mejorar la eficiencia y precisión en tareas de inteligencia artificial, ofreciendo una solución ante los desafíos actuales en optimización de modelos.

Uno de los principales retos de la cuantificación de modelos es la posible pérdida de precisión y la «inteligencia» del modelo al reducir la precisión de los datos de FP32 a formatos más bajos como FP4. La arquitectura Blackwell de NVIDIA, compatible con varios formatos de datos, desde FP64 hasta FP4, aborda este problema con NVFP4, un nuevo formato que optimiza la representación de datos a través de una estrategia de escalado de dos niveles.

El NVFP4 utiliza una estructura interna de 4 bits que permite a los desarrolladores ajustarse mejor a la amplitud dinámica de los valores del tensor. Las innovaciones en el escalado de bloques, donde cada conjunto de 16 valores comparte un factor de escala FP8, aseguran una menor pérdida de precisión. Esto se complementa con un factor de escala FP32 a nivel de tensor, lo que reduce significativamente el error de cuantificación.

Además, gracias a la arquitectura de núcleo tensorial de quinta generación de NVIDIA, que implementa el NVFP4, se pueden manejar automáticamente los datos de baja precisión, lo que no solo mejora el rendimiento de inferencia sino que también reduce el consumo de energía. Según los datos presentados, las nuevas tarjetas Blackwell y Blackwell Ultra pueden ser hasta 50 veces más eficientes energéticamente en comparación con las generaciones anteriores.

En cuanto a la eficiencia de memoria, NVFP4 permite una reducción del tamaño del modelo en aproximadamente 3.5 veces respecto a FP16, y 1.8 veces en comparación con FP8. Este avance no solo disminuye la presión sobre el ancho de banda de memoria, sino que optimiza el desempeño de modelos en escenarios de despliegue a gran escala, como en los sistemas NVIDIA GB300 NVL72.

Los desarrolladores interesados pueden utilizar herramientas como el TensorRT Model Optimizer de NVIDIA y el LLM Compressor para comenzar a trabajar con NVFP4, ya que ambas proporcionan flujos de trabajo simplificados para la cuantificación de modelos. Estos avances técnicos están impulsando una rápida adopción del NVFP4 en diversos entornos aplicativos, prometiendo una nueva era de eficiencia y rendimiento en la inteligencia artificial.
Fuente: Zona de blogs y prensa de Nvidia

Scroll al inicio