El avance de los modelos abiertos está impulsando una nueva ola de inteligencia artificial en dispositivos, extendiendo la innovación más allá de la nube hacia los dispositivos cotidianos. Estos modelos, a medida que avanzan, dependen cada vez más del acceso a contextos locales y en tiempo real que pueden convertir percepciones significativas en acciones concretas.
Google ha respondido a este cambio con las nuevas incorporaciones a la familia Gemma 4, modelos pequeños, rápidos y omni-capaces diseñados para una ejecución local eficiente en una amplia gama de dispositivos. En colaboración con NVIDIA, Google ha optimizado Gemma 4 para las GPUs de NVIDIA, permitiendo un rendimiento más eficiente desde implementaciones en centros de datos hasta PCs equipados con RTX y estaciones de trabajo, así como el superordenador personal de inteligencia artificial NVIDIA DGX Spark y los módulos de borde de inteligencia artificial NVIDIA Jetson Orin Nano.
Las últimas adiciones a la familia Gemma 4 incluyen variantes como E2B, E4B, 26B y 31B, diseñadas para un despliegue eficiente desde dispositivos de borde hasta GPUs de alto rendimiento. Esto permite una gama versátil de tareas, desde razonamiento y codificación hasta interacciones multimodales ricas para el reconocimiento de objetos e inteligencia de documentos o videos. Además, soportan la entrada multimodal intercalada y son multilingües, ofreciendo compatibilidad con más de 35 idiomas, preentrenados en más de 140 lenguas.
Los modelos E2B y E4B están pensados para inferencias ultrarrápidas y de baja latencia en el borde, operando completamente offline en varios dispositivos, como los módulos Jetson Nano. Mientras tanto, los modelos 26B y 31B están diseñados para un enfoque de rendimiento elevado, ideal para flujos de trabajo centrados en desarrolladores y razonamiento de alta calidad, funcionando eficientemente en GPUs NVIDIA RTX y DGX Spark.
Como la inteligencia artificial local sigue ganando impulso, aplicaciones como OpenClaw están habilitando asistentes de IA siempre activos en PCs equipados con RTX, estaciones de trabajo y DGX Spark. Los últimos modelos Gemma 4 son compatibles con OpenClaw, permitiendo a los usuarios construir agentes locales capaces de extraer contexto de archivos personales, aplicaciones y flujos de trabajo para automatizar tareas.
NVIDIA ha colaborado con Ollama y llama.cpp para proporcionar la mejor experiencia de despliegue local para cada uno de los modelos Gemma 4. Los usuarios pueden descargar Ollama para ejecutar los modelos Gemma 4 o instalar llama.cpp y emparejarlo con el punto de control Gemma 4 GGUF Hugging Face. Además, Unsloth ofrece soporte desde el primer día con modelos optimizados y cuantizados para un ajuste fino y despliegue local eficiente a través de Unsloth Studio.
El funcionamiento de modelos abiertos como la familia Gemma 4 en GPUs NVIDIA aprovecha al máximo el rendimiento, ya que los NVIDIA Tensor Cores aceleran las cargas de trabajo de inferencia de IA, proporcionando una mayor capacidad de procesamiento y reduciendo la latencia para la ejecución local. Además, el software CUDA asegura una amplia compatibilidad entre marcos y herramientas, permitiendo que los nuevos modelos funcionen eficientemente desde el primer día.
Con esta combinación, los modelos abiertos como Gemma 4 pueden escalar en una amplia gama de sistemas, desde el borde con Jetson Orin Nano hasta PCs con RTX, estaciones de trabajo y DGX Spark, sin requerir una optimización extensiva. Visite el blog técnico de NVIDIA para obtener más detalles sobre cómo empezar con Gemma 4 en GPUs NVIDIA y conocer más sobre el trabajo de NVIDIA en modelos abiertos.
Fuente: Zona de blogs y prensa de Nvidia







