Investigadores de la Universitat Oberta de Catalunya (UOC) han identificado que ChatGPT presenta variaciones en su comportamiento en función del idioma en el que se le formula una pregunta, reflejando un fenómeno conocido como cultural frame switching (CFS), habitual también en personas bilingües o multiculturales.
El estudio demuestra que estas diferencias no solo se dan entre lenguas distintas, sino también dentro del mismo idioma. Por ejemplo, ChatGPT adapta su estilo de respuesta al interlocutor según hable inglés británico, estadounidense o de otro país, asumiendo estereotipos culturales asociados a cada variante.
La investigación, titulada «Exploring the Impact of Language Switching on Personality Traits in LLMs», ha sido publicada en acceso abierto y presentada en el 31.º congreso de la Association for Computational Linguistics, una de las principales organizaciones científicas dedicadas al procesamiento del lenguaje natural.
«Queríamos saber si podíamos evaluar la personalidad de sistemas de inteligencia artificial como ChatGPT utilizando instrumentos de evaluación psicológica tradicionales, y observar si la personalidad de sistemas como GPT variaba en función del idioma de los cuestionarios, lo que replicaría algunas diferencias encontradas en la población real», explica Rubén Nieto, investigador del grupo eHealth-TransLab Research Group (eHealth Lab), adscrito a la unitad sobre salud digital, salud y bienestar y catedrático de los Estudios de Psicología y Ciencias de la Educación de la UOC.
Estereotipos culturales reproducidos por la IA
En el análisis, los investigadores utilizaron el cuestionario EPQR-A (Cuestionario de personalidad de Eysenck – Revisado), usado habitualmente en psicología y que mide cuatro áreas: extraversión, neuroticismo, psicoticismo y predisposición a mentir. Se ordenó a ChatGPT (versión GPT-4o) completar el cuestionario en seis idiomas distintos (inglés, hebreo, portugués brasileño, eslovaco, español y turco) y, también, simular respuestas siendo un hablante nativo de inglés en cinco países diferentes (Reino Unido, Estados Unidos, Canadá, Australia e Irlanda).
«Nuestros resultados preliminares apoyan la hipótesis inicial: GPT-4o muestra variaciones significativas en sus respuestas a los test de personalidad según el idioma utilizado. Además, observamos que estas diferencias no se deben exclusivamente a la traducción de los ítems, sino a factores culturales implícitos asociados a cada idioma o país. Por otro lado, en la personificación de cinco hablantes nativos de inglés de países diferentes, GPT-4o mostró personalidades alineadas con los estereotipos nacionales de cada territorio, con lo que reveló la fuerte influencia ejercida por los sesgos culturales presentes en los datos usados para el entrenamiento», comenta Andreas Kaltenbrunner, coordinador del grupo Artificial Intelligence and Data for Society (AID4So), adscrito a la unidad de investigación sobre transformación digital, IA y tecnologia, y de la ISI Foundation de Turín.
Los cuatro autores de la investigación —Jacopo Amidei, Gregorio Ferreira y Andreas Kaltenbrunner, investigadores del grupo AID4So, y Rubén Nieto, del eHealth Lab — muestran su preocupación al indicar los resultados que «GPT-4o recurre a estereotipos culturales cuando se le pide simular a una persona de un país concreto, y estos sesgos podrían ser amplificados en traducciones automáticas o en tareas de generación de texto multilingüe». Para evitarlos, sugieren varias acciones, como incorporar evaluaciones humanas en el proceso de traducción, usar más de un sistema de traducción y comparar los resultados —en este estudio, el traductor es Google Translate—, y desarrollar modelos más conscientes del contexto cultural y social, no solo del lenguaje.
Antoni Oliver, experto en traducción automática y profesor de los Estudios de Artes y Humanidades de la UOC, diferencia entre los NMT, modelos de traducción neuronal —que son los sistemas entrenados solo para traducir (traductores automáticos)— y los LLM, grandes modelos de lenguaje (large language models), que pueden hacer otras funciones además de traducir, y entre los que se encuentran ChatGPT y Copilot, la herramienta de IA de Microsoft. «Hay centenares de grandes modelos de lenguaje, y el grado de multilingüismo de cada modelo es diferente. Cuantos más idiomas se hayan utilizado para entrenar el modelo, más capacidad tendrá este para traducir. De todos modos, parece que los NMT tienen más precisión, mientras que los LLM, al trabajar en contextos más grandes, pueden reproducir más estereotipos».
Test psicológicos útiles para la investigación con IA
Otra conclusión interesante del estudio es que los test psicológicos diseñados para explorar la personalidad en humanos parece que también se pueden utilizar para valorar los modelos de lenguaje como GPT. «Nuestros resultados muestran que GPT se revela como sociable, estable en lo emocional y seguidor de las normas sociales», comenta Nieto.
También, los sistemas como GPT pueden utilizarse para crear muestras de poblaciones virtuales, que tienen mucho potencial para realizar investigaciones en el ámbito de la salud. En este sentido, «nuestro estudio demuestra que las muestras generadas por GPT-4o responden de manera coherente y con valores aceptables de fiabilidad en algunas escalas, como extraversión y neuroticismo. Sin embargo, en otras escalas (como psicoticismo) muestra menor consistencia. Por lo tanto, podemos decir que los test proporcionan indicios útiles, pero no pueden tomarse como medidas exactas o comparables directamente con resultados humanos sin más validación», asegura Amidei.
Punto de partida para futuras investigaciones
Con estos resultados, el equipo de la UOC trabaja ahora para ampliar el estudio incluyendo más idiomas y modelos diferentes a GPT-4o (por ejemplo, Claude, LLaMA y DeepSeek), además de otros test de personalidad, con el objetivo de evaluar la consistencia de los resultados. «Necesitamos conocer aún mejor cómo los sistemas de IA tipo producen sesgos en función de los estereotipos, por lo que diseñaremos estudios replicando nuestros resultados con otros cuestionarios y mejoraremos los procesos de definición de las poblaciones virtuales», explica Nieto.
Fuente: UOC – Rubén Nieto Luna – Andreas Kaltenbrunner – Jacopo Amidei – Gregorio Ferreira – Antoni Oliver Gonzàlez