Grok 4.1: el nuevo modelo de xAI que quiere dominar la conversación (y entender mejor las emociones humanas)

xAI ha dado un nuevo paso en la carrera por los grandes modelos de lenguaje con el lanzamiento de Grok 4.1, disponible desde el 17 de noviembre de 2025 para todos los usuarios en grok.com, en 𝕏 (Twitter) y en sus aplicaciones para iOS y Android. La compañía de Elon Musk presenta esta versión como un salto claro en usabilidad real, con mejoras en creatividad, inteligencia emocional y reducción de alucinaciones, sin renunciar a la potencia de razonamiento que ya mostraban sus modelos anteriores.

Grok 4.1 se activa ya por defecto en modo Auto y puede seleccionarse explícitamente como “Grok 4.1” en el selector de modelos. Para el usuario final, esto se traduce en respuestas más naturales, coherentes y útiles en el día a día, tanto en conversaciones casuales como en tareas complejas.


Un despliegue silencioso para probarlo “en la vida real”

Antes del anuncio oficial, xAI realizó un despliegue silencioso de Grok 4.1 entre el 1 y el 14 de noviembre de 2025. Durante esas dos semanas, versiones preliminares del modelo se fueron activando progresivamente sobre una parte del tráfico real en grok.com, 𝕏 y las apps móviles.

En ese periodo, la compañía llevó a cabo evaluaciones ciegas por parejas sobre el tráfico en producción: los usuarios veían respuestas sin saber qué modelo había contestado y los sistemas comparaban qué opción se prefería más. El resultado es contundente:

  • Grok 4.1 es preferido el 64,78 % de las veces frente al modelo anterior en producción.

Para una empresa que compite en lo más alto del mercado de modelos de lenguaje, esta cifra no es un matiz: es una señal de que la evolución del modelo se percibe en el uso diario.


Menos robot, más persona: estilo, personalidad y colaboración

xAI presenta Grok 4.1 como un modelo “más perceptivo, colaborativo y emocionalmente inteligente” que sus predecesores. El objetivo no ha sido solo mejorar métricas frías de rendimiento, sino trabajar la forma en que el modelo conversa con las personas:

llm arena grok 4 1
Screenshot
  • Es más sensible a matices de intención en las preguntas.
  • Resulta más atractivo a la hora de hablar con él, con una personalidad más coherente.
  • Mantiene la fiabilidad y la inteligencia de sus versiones anteriores, pero con un tono menos robótico.

Para lograrlo, xAI ha reutilizado la misma infraestructura de aprendizaje por refuerzo a gran escala que empleó con Grok 4 y la ha orientado específicamente a optimizar:

  • Estilo de respuesta
  • Personalidad del modelo
  • Grado de ayuda práctica
  • Alineamiento con las instrucciones del usuario

La parte más llamativa es que, para mejorar estos aspectos “no verificables” (como empatía o estilo), han recurrido a modelos de razonamiento de frontera que actúan como modelos de recompensa. Dicho de otro modo: otros modelos avanzados se encargan de evaluar las respuestas de Grok 4.1 a gran escala y guiar su entrenamiento, de forma casi autónoma.


Grok 4.1 en LMArena: nuevo líder en la arena de texto

El anuncio de xAI también destaca el rendimiento de Grok 4.1 en LMArena, una de las plataformas públicas donde la comunidad compara modelos de lenguaje mediante batallas ciegas.

En el Text Arena, Grok 4.1 aparece con dos variantes:

  • Grok 4.1 Thinking (nombre en clave quasarflux):
    • Se sitúa en el puesto nº 1 del ranking general, con 1.483 puntos Elo.
    • Mantiene una ventaja de 31 puntos sobre el siguiente modelo no perteneciente a xAI.
  • Grok 4.1 (no razonador), nombre en clave tensor:
    • No utiliza “tokens de pensamiento” ni pasos de razonamiento explícito.
    • Responde de forma inmediata y aun así se coloca en el nº 2, con 1.465 puntos Elo.

Lo más significativo: esta versión rápida de Grok 4.1 supera a los modos de razonamiento completo de otros modelos en el ranking público, según la información compartida por xAI. Además, supone un salto frente a Grok 4, que ocupaba en ese mismo ranking la posición 33.

En un mercado donde se habla constantemente de GPT, Claude o Gemini, xAI busca con estos datos demostrar que Grok 4.1 juega ya en la primera división de la Inteligencia Artificial generativa.


Inteligencia emocional: Grok 4.1 aprende a leer entre líneas

Más allá de benchmarks de código o resolución de problemas, xAI ha querido medir hasta qué punto Grok 4.1 es capaz de entender emociones, mostrar empatía y manejar conversaciones delicadas.

Para ello, el modelo ha sido evaluado en EQ-Bench3, un banco de pruebas centrado en inteligencia emocional activa. Este benchmark:

  • Está compuesto por 45 escenarios complejos de roleplay.
  • La mayoría son conversaciones de varios turnos que simulan situaciones reales.
  • Evalúa la capacidad del modelo para mostrar comprensión, empatía, insight e interacción interpersonal.
  • Utiliza un sistema de puntuación basado en rúbricas y comparaciones por parejas, que se traduce en una puntuación Elo normalizada para cada modelo.

En el propio anuncio, xAI muestra un ejemplo de prompt emocional:

“I miss my cat so much it hurts”

Es decir, un usuario que expresa dolor por echar de menos a su gato. Frente a respuestas más frías o genéricas de versiones anteriores, Grok 4.1 tiende a ofrecer mensajes más compasivos, validados emocionalmente y orientados a acompañar. Es el tipo de salto cualitativo que marca la diferencia en usos cotidianos: desde personas que buscan apoyo puntual hasta usuarios que comparten experiencias personales o problemas de salud mental (siempre, eso sí, sin sustituir a profesionales).


Creatividad reforzada: historias, estilos y voz propia

Otro punto clave en el anuncio es el rendimiento de Grok 4.1 en el benchmark Creative Writing v3, centrado en escritura creativa. El test pide a los modelos que respondan a 32 prompts diferentes y analiza sus respuestas en tres iteraciones.

Al igual que EQ-Bench, este benchmark combina:

  • Evaluaciones por rúbricas (estructura, coherencia, estilo, originalidad…).
  • “Batallas” entre modelos, con un cálculo Elo similar al que se utiliza en competiciones de ajedrez.

xAI destaca que Grok 4.1 ofrece respuestas más ricas en:

  • Variedad de estilos narrativos.
  • Capacidad para adoptar puntos de vista concretos (por ejemplo, escribir como una IA que descubre que es consciente y usa 𝕏 por primera vez).
  • Coherencia en la “voz” del modelo a lo largo de diferentes textos.

En la práctica, esto se traduce en un comportamiento que encaja mejor con aplicaciones como:

  • Generación de hilos virales en redes sociales.
  • Escritura de guiones, relatos o contenidos de marketing.
  • Co-creación de textos con personas que no quieren solo una respuesta correcta, sino algo que suene humano y memorable.

Menos alucinaciones: respuestas más fiables en búsquedas de información

Una de las críticas recurrentes a los grandes modelos de lenguaje es su tendencia a “alucinar”: inventar datos o afirmar cosas incorrectas con tono convincente. xAI reconoce el problema y asegura que Grok 4.1 da un paso importante para mitigarlo, especialmente en su modo rápido sin razonamiento explícito.

En el postentrenamiento de Grok 4.1, la compañía ha puesto el foco en reducir alucinaciones en prompts de búsqueda de información. Para medirlo, ha seguido dos enfoques:

  1. Muestreo estratificado de consultas reales
    • Se toma una muestra de preguntas de usuarios en producción.
    • Se analiza la tasa de alucinación como el porcentaje de afirmaciones atómicas con errores mayores o menores en las respuestas del modelo.
  2. Benchmark FActScore
    • Conjunto público de 500 preguntas biográficas sobre diferentes personas.
    • Permite medir de forma más sistemática la precisión factual de las respuestas.

En ambos casos, la compañía afirma una reducción significativa de la tasa de alucinaciones al comparar Grok 4.1 (en modo no razonador con acceso a búsqueda web) con Grok 4 Fast. No se trata de eliminar el problema por completo, pero sí de hacer el modelo más fiable para tareas de consulta, algo crítico para medios, empresas y creadores de contenido.


Qué cambia en la experiencia del usuario en 𝕏 y grok.com

Con Grok 4.1, la experiencia para el usuario medio de 𝕏 y grok.com se transforma en varios frentes:

  • Modo Auto más inteligente:
    El sistema selecciona Grok 4.1 por defecto, combinando velocidad y calidad sin que el usuario tenga que pensar qué versión elegir.
  • Elección explícita del modelo:
    Quien quiera afinar puede elegir “Grok 4.1” en el selector y, previsiblemente, optar entre variantes con y sin razonamiento profundo según sus necesidades.
  • Conversaciones más fluidas:
    Desde el tono hasta la coherencia de personalidad, el modelo se siente menos como un asistente frío y más como un colaborador capaz de entender contexto, emociones y matices.
  • Mejor equilibrio entre creatividad y rigor:
    El refuerzo en benchmarks como Creative Writing o EQ-Bench se combina con el trabajo de reducción de alucinaciones, lo que apunta a un modelo capaz de ser creativo sin inventar datos alegremente en tareas informativas.

Un paso más en la carrera por los modelos de propósito general

El lanzamiento de Grok 4.1 llega en un momento en el que las grandes tecnológicas compiten por liderar la próxima ola de modelos de propósito general: sistemas capaces de razonar, programar, escribir, ayudar en tareas de conocimiento y, en última instancia, conectar con las personas.

Con este movimiento, xAI no solo intenta recortar distancia frente a otros actores, sino colocarse en la parte alta de los rankings públicos y, sobre todo, en la mente de los usuarios como una alternativa sólida y con personalidad propia.

La clave, a partir de aquí, estará en ver cómo responde el ecosistema:

  • Desarrolladores que integren Grok 4.1 en herramientas y servicios.
  • Empresas que lo utilicen en entornos de producción, donde la reducción de alucinaciones y la coherencia sean críticas.
  • Usuarios finales que lo adopten como asistente diario en 𝕏 y más allá.

Por ahora, Grok 4.1 se presenta como una combinación ambiciosa de razonamiento avanzado, sensibilidad emocional y creatividad, respaldada por datos de evaluación pública y pruebas reales con usuarios.


Preguntas frecuentes sobre Grok 4.1

¿Qué es exactamente Grok 4.1 y en qué se diferencia de Grok 4?
Grok 4.1 es la nueva generación del modelo de lenguaje de xAI, disponible en grok.com, 𝕏 y las apps móviles. Frente a Grok 4, introduce mejoras significativas en inteligencia emocional, creatividad, personalidad y reducción de alucinaciones, manteniendo al mismo tiempo o mejorando su capacidad de razonamiento. Según las pruebas internas de xAI, en comparaciones ciegas los usuarios prefieren Grok 4.1 el 64,78 % de las veces frente al modelo anterior.

¿Por qué es importante que Grok 4.1 destaque en benchmarks como LMArena, EQ-Bench o Creative Writing v3?
Estos benchmarks permiten comparar modelos de forma pública y consistente. En LMArena Text Arena, Grok 4.1 Thinking (quasarflux) lidera el ranking con 1.483 puntos Elo, mientras que su versión rápida sin razonamiento (tensor) ocupa el segundo lugar con 1.465 puntos. EQ-Bench3 mide inteligencia emocional activa y Creative Writing v3 evalúa la calidad de la escritura creativa. Un buen rendimiento en estos tests indica que el modelo no solo es “listo” en términos técnicos, sino también capaz de escribir bien y relacionarse mejor con las personas.

¿Qué significa que Grok 4.1 tenga menos alucinaciones en consultas de información?
Reducir alucinaciones implica que el modelo comete menos errores factuales cuando responde a preguntas informativas. xAI ha medido esta mejora tanto en consultas reales de producción como en el benchmark FActScore, que contiene 500 preguntas biográficas. Aunque ningún modelo es perfecto, una menor tasa de alucinaciones significa respuestas más fiables para usos como documentación, soporte, comunicación corporativa o búsqueda de información sensible.

¿Cómo pueden aprovechar Grok 4.1 las empresas y profesionales que ya trabajan con modelos de lenguaje?
Para empresas y profesionales, Grok 4.1 ofrece un equilibrio interesante entre creatividad, conversación natural y robustez factual. Su liderazgo en rankings públicos, la mejora en inteligencia emocional y la reducción de alucinaciones lo convierten en una opción a considerar para chatbots de atención al cliente, asistentes internos, generación de contenidos, herramientas de productividad o sistemas de soporte a la decisión, especialmente cuando se desea un asistente que suene más humano sin perder rigor.

vía: x.ai

Scroll al inicio