Gemma 4 Acelerada: Impulso de RTX a Spark para una IA Agente

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

El avance de los modelos abiertos está impulsando una nueva ola de inteligencia artificial en dispositivos, extendiendo la innovación más allá de la nube hacia los dispositivos cotidianos. Estos modelos, a medida que avanzan, dependen cada vez más del acceso a contextos locales y en tiempo real que pueden convertir percepciones significativas en acciones concretas.

Google ha respondido a este cambio con las nuevas incorporaciones a la familia Gemma 4, modelos pequeños, rápidos y omni-capaces diseñados para una ejecución local eficiente en una amplia gama de dispositivos. En colaboración con NVIDIA, Google ha optimizado Gemma 4 para las GPUs de NVIDIA, permitiendo un rendimiento más eficiente desde implementaciones en centros de datos hasta PCs equipados con RTX y estaciones de trabajo, así como el superordenador personal de inteligencia artificial NVIDIA DGX Spark y los módulos de borde de inteligencia artificial NVIDIA Jetson Orin Nano.

Las últimas adiciones a la familia Gemma 4 incluyen variantes como E2B, E4B, 26B y 31B, diseñadas para un despliegue eficiente desde dispositivos de borde hasta GPUs de alto rendimiento. Esto permite una gama versátil de tareas, desde razonamiento y codificación hasta interacciones multimodales ricas para el reconocimiento de objetos e inteligencia de documentos o videos. Además, soportan la entrada multimodal intercalada y son multilingües, ofreciendo compatibilidad con más de 35 idiomas, preentrenados en más de 140 lenguas.

Los modelos E2B y E4B están pensados para inferencias ultrarrápidas y de baja latencia en el borde, operando completamente offline en varios dispositivos, como los módulos Jetson Nano. Mientras tanto, los modelos 26B y 31B están diseñados para un enfoque de rendimiento elevado, ideal para flujos de trabajo centrados en desarrolladores y razonamiento de alta calidad, funcionando eficientemente en GPUs NVIDIA RTX y DGX Spark.

Como la inteligencia artificial local sigue ganando impulso, aplicaciones como OpenClaw están habilitando asistentes de IA siempre activos en PCs equipados con RTX, estaciones de trabajo y DGX Spark. Los últimos modelos Gemma 4 son compatibles con OpenClaw, permitiendo a los usuarios construir agentes locales capaces de extraer contexto de archivos personales, aplicaciones y flujos de trabajo para automatizar tareas.

NVIDIA ha colaborado con Ollama y llama.cpp para proporcionar la mejor experiencia de despliegue local para cada uno de los modelos Gemma 4. Los usuarios pueden descargar Ollama para ejecutar los modelos Gemma 4 o instalar llama.cpp y emparejarlo con el punto de control Gemma 4 GGUF Hugging Face. Además, Unsloth ofrece soporte desde el primer día con modelos optimizados y cuantizados para un ajuste fino y despliegue local eficiente a través de Unsloth Studio.

El funcionamiento de modelos abiertos como la familia Gemma 4 en GPUs NVIDIA aprovecha al máximo el rendimiento, ya que los NVIDIA Tensor Cores aceleran las cargas de trabajo de inferencia de IA, proporcionando una mayor capacidad de procesamiento y reduciendo la latencia para la ejecución local. Además, el software CUDA asegura una amplia compatibilidad entre marcos y herramientas, permitiendo que los nuevos modelos funcionen eficientemente desde el primer día.

Con esta combinación, los modelos abiertos como Gemma 4 pueden escalar en una amplia gama de sistemas, desde el borde con Jetson Orin Nano hasta PCs con RTX, estaciones de trabajo y DGX Spark, sin requerir una optimización extensiva. Visite el blog técnico de NVIDIA para obtener más detalles sobre cómo empezar con Gemma 4 en GPUs NVIDIA y conocer más sobre el trabajo de NVIDIA en modelos abiertos.
Fuente: Zona de blogs y prensa de Nvidia