Un estudio revela que ChatGPT y otros LLMs obtienen mejores resultados que las personas en cinco pruebas de inteligencia emocional y son capaces de crear nuevas versiones con propiedades psicométricas comparables
Los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) como ChatGPT-4, Claude 3.5 Haiku o Gemini 1.5 Flash no solo comprenden el lenguaje con precisión sorprendente, sino que también son capaces de razonar sobre emociones humanas mejor que la mayoría de las personas. Así lo revela un nuevo estudio publicado en Communications Psychology (Nature), que evaluó la capacidad de seis LLMs para resolver y generar test de inteligencia emocional (IE) basada en habilidades, tradicionalmente usados para evaluar competencias socioemocionales en humanos.
En concreto, los investigadores compararon el rendimiento de los LLMs con el de participantes humanos en cinco pruebas validadas que miden la comprensión de emociones, su regulación y gestión, tanto propias como ajenas. En todas ellas, los modelos superaron la media humana por amplios márgenes, con puntuaciones significativamente más altas y consistentes.
De resolver emociones a generar nuevos test
El estudio, realizado por investigadores de las universidades de Berna y Ginebra (Suiza) y del Instituto de Psicología de la Academia Checa de Ciencias, constó de dos fases. En la primera, los modelos resolvieron 105 ítems de cinco pruebas reconocidas (como el STEU, STEM o GECo), obteniendo una media de aciertos del 81 % frente al 56 % humano, con diferencias superiores a una desviación estándar en todos los casos.
En la segunda fase, ChatGPT-4 fue instruido para crear nuevas versiones completas de estas pruebas. Los investigadores validaron estas nuevas versiones en una muestra de 467 participantes humanos, comparando aspectos clave como dificultad, realismo, claridad, consistencia interna, correlación con otras medidas de inteligencia emocional y con pruebas de vocabulario.
Los resultados fueron igualmente destacables: las pruebas generadas por ChatGPT-4 resultaron estadísticamente equivalentes a las originales en dificultad, y mostraron diferencias mínimas en realismo, claridad y validez, todas ellas dentro de márgenes aceptables. Aunque los ítems generados fueron ligeramente menos diversos en contenido, su estructura y puntuaciones indicaron una comprensión precisa de los elementos emocionales involucrados.
Implicaciones para la IA empática
Este hallazgo tiene implicaciones relevantes para el desarrollo de IA social y emocionalmente competente, especialmente en ámbitos como la salud mental, la educación o la atención al cliente. Según los autores, la capacidad de razonar correctamente sobre emociones, causas, consecuencias y estrategias de regulación –lo que se conoce como “empatía cognitiva”– es un requisito previo para que un sistema artificial sea percibido como empático o emocionalmente inteligente.
En este sentido, los resultados demuestran que los LLMs actuales ya superan ese umbral cognitivo. Aunque no sienten emociones (empatía afectiva), sí pueden entenderlas y responder de manera adaptativa, lo que en muchos contextos prácticos resulta suficiente para generar efectos positivos en la interacción humano-máquina.
¿Una nueva herramienta para psicometría?
Más allá del rendimiento en las pruebas, el estudio también posiciona a ChatGPT-4 como una herramienta útil para diseñar test psicológicos. Su capacidad para generar ítems plausibles, bien estructurados y con propiedades psicométricas adecuadas, puede acelerar y abaratar el desarrollo de pruebas de evaluación, especialmente en el ámbito emocional, donde tradicionalmente se requerían entrevistas y validaciones costosas.
Eso sí, los autores matizan que el uso de LLMs no sustituye la validación empírica, ya que algunas versiones generadas presentaron niveles de dificultad subóptimos o correlaciones ligeramente más bajas con otras variables. Pero como punto de partida para generar bancos de ítems, su potencial es enorme.
Limitaciones y próximos pasos
El estudio también reconoce ciertas limitaciones: las pruebas están diseñadas desde una perspectiva cultural occidental, y aún no se ha evaluado cómo se comportarían los modelos con situaciones emocionalmente complejas o ambiguas en interacciones reales y multiculturales.
Además, el carácter de “caja negra” de estos modelos dificulta explicar cómo llegan a sus respuestas correctas o si mejoras futuras mantendrán este rendimiento. A pesar de ello, los autores consideran que estamos ante un avance clave en el camino hacia una IA emocionalmente competente, que puede operar como asistente fiable en contextos sensibles sin depender de estados de ánimo, prejuicios o fatiga, como ocurre con los humanos.
En palabras del equipo investigador, esta capacidad para comprender y gestionar emociones de forma coherente y basada en teorías psicológicas posiciona a los LLMs como candidatos prometedores para futuros sistemas de inteligencia artificial general (AGI), donde la inteligencia emocional será tan importante como el razonamiento lógico.
Referencia del estudio: Schlegel, K., Sommer, N. R. & Mortillaro, M. (2025). Large language models are proficient in solving and creating emotional intelligence tests. Communications Psychology, 3, 80. https://doi.org/10.1038/s44271-025-00258-x
Referencia: nature