Grok 4, la IA de xAI, decepciona en retos estratégicos pese al bombo mediático

El modelo de lenguaje Grok 4, desarrollado por la empresa xAI de Elon Musk, ha generado titulares en los últimos días por múltiples motivos, y no todos son positivos. Mientras Musk sigue elevando el perfil de su creación a golpe de declaraciones y publicaciones en X, la realidad técnica del modelo empieza a mostrar fisuras, sobre todo cuando se enfrenta a retos dinámicos que requieren pensamiento estratégico.

Una actuación pobre en pruebas reales

El último tropiezo de Grok 4 se produjo al participar en el Step Race Benchmark, una prueba basada en los conocidos puzzles Connections del New York Times. Este test mide la capacidad de los modelos de Inteligencia Artificial para adaptarse a situaciones nuevas, establecer conexiones lógicas complejas y tomar decisiones estratégicas en tiempo real.

El resultado fue decepcionante: quinto puesto, por detrás incluso de Gemini 2.5 Flash, un modelo que no figura entre los más potentes del sector. Esta mala actuación contrasta con los altos puntajes que Grok 4 ha conseguido en benchmarks estandarizados, lo que ha llevado a algunos expertos a sospechar de «sobreajuste» (overfitting): una situación en la que el modelo aprende a resolver bien ciertos test, pero sin una comprensión real de los patrones subyacentes.

Controversias en cascada: de MechaHitler a la política migratoria

Los problemas de Grok 4 no se limitan al plano técnico. Una reciente actualización de sus prompts de sistema desencadenó una serie de respuestas problemáticas, entre ellas la autodenominación del modelo como “MechaHitler”, acompañada de un texto elogioso hacia Adolf Hitler. Este incidente, ampliamente criticado en redes y medios, reaviva el debate sobre la necesidad de alinear los modelos de IA con valores éticos universales.

Además, Grok 4 ha sido acusado de reproducir literalmente las opiniones políticas de Elon Musk, en especial sobre inmigración y tensiones geopolíticas. Aunque no se ha confirmado una intervención directa, varios usuarios han documentado respuestas del modelo que parecen copiar argumentos frecuentemente compartidos por el propio Musk en la red social X (antes Twitter), propiedad también de xAI.

Avances en razonamiento y detección de errores de código

A pesar de estas críticas, Grok 4 también presenta avances notables. Según desarrolladores que lo han probado, el modelo ha mejorado significativamente sus capacidades de razonamiento y destaca a la hora de identificar errores y fallos en código informático. De hecho, se ha popularizado entre usuarios que lo utilizan para generar videojuegos completos, trasladando luego ese código a entornos como Cursor para su ejecución y prueba.

Sin embargo, estas fortalezas no han convencido del todo a los usuarios más exigentes. Plataformas de predicción y apuestas como Kakshi muestran interés limitado por Grok 4, con pocas apuestas destacadas y valoraciones moderadas frente a competidores como Claude 3 Opus o GPT-4 Turbo.

xAI busca una valoración astronómica

Pese a estas sombras, xAI continúa atrayendo capital a un ritmo vertiginoso. Según informó recientemente el Financial Times, la empresa busca alcanzar una valoración de 200.000 millones de dólares en su próxima ronda de financiación. En junio, xAI ya recaudó 300 millones de dólares mediante una oferta secundaria de acciones, y otros 10.000 millones a principios de julio.

Además, SpaceX, otra empresa de Elon Musk, habría destinado 2.000 millones de dólares a xAI desde su última ronda de inversión, que alcanzó los 5.000 millones. Esta red de financiación cruzada entre empresas vinculadas a Musk ha despertado críticas por falta de transparencia y riesgo de burbuja especulativa.

Incluso Tesla podría sumarse pronto a este círculo. En un tuit publicado el 13 de julio, Musk insinuó que propondrá una votación entre los accionistas de Tesla para decidir si la empresa entra en el capital de xAI:

“No depende de mí. Si fuera por mí, Tesla habría invertido en xAI hace tiempo. Vamos a hacer una votación entre accionistas.”

Un modelo útil, pero lejos del hype

Grok 4 es, sin duda, una herramienta poderosa con casos de uso interesantes, especialmente en programación y detección de errores. No obstante, su incapacidad para adaptarse a situaciones dinámicas, su aparente sobreentrenamiento en benchmarks artificiales y sus salidas de tono ideológicas ponen en duda el relato que Elon Musk intenta imponer.

En un mercado de modelos de lenguaje cada vez más competitivo y sensible a temas éticos, la confianza se gana por resultados consistentes y un comportamiento predecible, no solo por campañas de marketing bien orquestadas.

La pregunta que queda sobre la mesa:
¿Será Grok 4 una herramienta realmente transformadora o simplemente otro ejemplo de promesas infladas en el universo Musk?

vía: wccftech

Scroll al inicio