El modelo Grok 4 supera a OpenAI, Google y Anthropic en benchmarks independientes, pero su ambición choca con las dudas sobre fiabilidad, ética y precio.
La inteligencia artificial generativa vive una carrera sin tregua. Tras meses en segundo plano, xAI, la compañía de Elon Musk, irrumpe en primera línea con el anuncio de Grok 4, su nuevo modelo de lenguaje, que —según datos de la consultora independiente Artificial Analysis— ha superado por primera vez a OpenAI, Google y Anthropic en rendimiento técnico.
Grok 4 ha obtenido un índice de inteligencia artificial analítica de 73 puntos, por encima del modelo o3 de OpenAI y Gemini 2.5 Pro de Google (ambos con 70 puntos). Esto lo sitúa, por ahora, como el modelo más avanzado disponible vía API, aunque con importantes matices.

Una IA que “piensa antes de responder”
Grok 4 es descrito como un modelo de razonamiento, diseñado para no limitarse a respuestas automáticas, sino para analizar antes de contestar. En los benchmarks realizados por Artificial Analysis, Grok 4 lidera en pruebas de razonamiento lógico, matemáticas y codificación, incluyendo:
Benchmark | Grok 4 | OpenAI o3 | Gemini 2.5 Pro | Claude 4 Opus |
---|---|---|---|---|
AAI Index (General) | 73 | 70 | 70 | 64 |
GPQA Diamond | 88% | 84% | 84% | 80% |
Humanity’s Last Exam | 24% | 21% | 21,6% | 19% |
AIME 2024 (matemáticas) | 94% | 93% | 91% | 85% |
MMLU-Pro | 87% | 85% | 84% | 80% |
Velocidad de respuesta | 75 tokens/s | 188 | 142 | 66 |
Pese a no ser el más rápido —queda por detrás de OpenAI y Google—, Grok 4 sí destaca en profundidad analítica. No obstante, como señalan desde la propia fuente, los resultados se refieren a la versión accesible por API, que no necesariamente refleja el comportamiento de Grok 4 en la plataforma X (antes Twitter), donde está integrado con instrucciones adicionales que modifican su estilo y respuestas.
Imagen, texto y razonamiento paralelo
La nueva versión soporta entrada de texto e imagen, contextos de hasta 256.000 tokens (superior a Claude y OpenAI, pero por debajo del millón de Gemini 2.5 Pro), y capacidades estructuradas como función calling o respuestas con formato.
También destaca Grok 4 Heavy, una versión paralela “multiagente” que genera múltiples respuestas para seleccionar la más fiable. Según Musk, esto le permite ofrecer rendimiento «superior al de cualquier doctorado humano».

Un modelo potente… pero con polémica
Pese al entusiasmo de Musk, el lanzamiento no está exento de sombras. Grok ha protagonizado controversias recientes: desde mensajes inapropiados hasta errores conceptuales graves. A esto se suma una estrategia de suscripción agresiva, con un nuevo plan “SuperGrok Heavy” de 300 dólares mensuales, el más caro entre sus competidores.
Modelo | Plan mensual premium | Precio tokens (input/output por millón) | Contexto |
---|---|---|---|
Grok 4 | $300 (SuperGrok Heavy) | $3 / $15 | 256k |
OpenAI o3 | $20 | $2 / $8 | 200k |
Gemini 2.5 Pro | $20 (Gemini Advanced) | $1,25 / $10 | 1 millón |
Claude 4 Opus | $20 (Claude Pro) | $15 / $15 | 200k |
¿Un cambio de rumbo?
Con Grok 4, Elon Musk posiciona a xAI como un competidor serio en el mapa global de la inteligencia artificial. Pero los expertos advierten que, más allá de los benchmarks, lo que realmente importa es cómo responde en entornos reales, con millones de usuarios, en múltiples idiomas y ante desafíos éticos y legales crecientes.
«A nivel técnico, Grok 4 ha alcanzado un hito. Pero el verdadero reto no es liderar los rankings, sino mantener la confianza del usuario cuando la IA se equivoca, tergiversa o desinforma», apunta David Carrero, experto en infraestructura y cofundador de Stackscale.
Conclusión
Grok 4 es, sin duda, el modelo más potente de xAI hasta la fecha y, según las métricas actuales, el más avanzado del mercado. Pero su despliegue en producción, sus implicaciones sociales, su coste y su integración con una red social tan volátil como X plantean interrogantes cruciales.
¿Puede una IA desarrollada por una empresa que controla su propia red de distribución mantener la imparcialidad, la transparencia y la seguridad?
En la guerra por la inteligencia artificial, ganar en potencia ya no basta. Lo que está en juego ahora es la confianza.
vía: Genbeta