La startup de inteligencia artificial Groq ha lanzado dos nuevos modelos de IA de código abierto especializados en el uso de herramientas, superando a pesos pesados como GPT-4 Turbo, Claude 3.5 Sonnet y Gemini 1.5 Pro en benchmarks clave de llamadas a funciones.
Modelos de IA innovadores
Los dos modelos de Groq, Llama 3 Groq Tool Use 8B y 70B, son versiones ajustadas del Llama 3 de Meta. El modelo de 70B logró una precisión del 90.76% en el Leaderboard de Llamadas a Funciones de Berkeley (BFCL), asegurando la primera posición entre todos los modelos, tanto propietarios como de código abierto. El modelo más pequeño de 8B no se quedó atrás, ocupando el tercer lugar con una precisión del 89.06%.
Estos modelos fueron entrenados exclusivamente con datos sintéticos y están disponibles a través de la API de Groq y en la plataforma Hugging Face.
Impacto en la comunidad tecnológica
Groq ya había causado revuelo a principios de este año con sus velocidades de IA ultrarrápidas. Ahora, con estos modelos especializados de alta gama, la empresa está abriendo la puerta a un sinfín de nuevas innovaciones y aplicaciones de usuario. Durante las pruebas previas al lanzamiento, la startup tecnológica Ramp utilizó los modelos para extraer datos de recibos y descubrió que el costo de operación era un 60% menor en comparación con GPT-3.5 Turbo, además de ser el doble de rápido que GPT-4o y GPT-3.5 Turbo.

Los modelos Llama-3-Groq-70B-Tool-Use y Llama-3-Groq-8B-Tool-Use fueron desarrollados en colaboración con Glaive y representan un avance significativo en las capacidades de IA de código abierto para el uso de herramientas y llamadas a funciones. Estos modelos están disponibles para desarrolladores y consumidores de ChatGPT, y reemplazarán a GPT-3.5 para uso general, aunque los desarrolladores aún podrán acceder a GPT-3.5 a través de una API, con la advertencia de que será descontinuado en las próximas semanas.
Desempeño y benchmarks
Los modelos de Groq han establecido nuevos estándares en el rendimiento de modelos de lenguaje grande con capacidades de uso de herramientas. En el BFCL, Llama-3-Groq-70B-Tool-Use alcanzó un 90.76% de precisión, mientras que Llama-3-Groq-8B-Tool-Use logró un 89.06%. Estos resultados destacan la capacidad de Groq para liderar en el desarrollo de modelos de IA especializados y de alto rendimiento.
La estrategia recomendada por Groq implica la implementación de un sistema de enrutamiento que analiza las consultas de los usuarios y selecciona el modelo más adecuado para manejar cada solicitud, maximizando el rendimiento general del sistema de IA.
Conclusión
Los modelos Llama-3 Groq Tool Use representan un paso significativo en la IA de código abierto para el uso de herramientas. Con un rendimiento de vanguardia y una licencia permisiva, Groq invita a la comunidad a explorar, utilizar y desarrollar estos modelos, con la esperanza de impulsar la innovación y el avance en el campo de la IA.
Ambos modelos están disponibles para acceso preliminar a través de la API de Groq, invitando a desarrolladores a comenzar a construir con estas poderosas herramientas hoy mismo.
Más información en Groq.