La IA que siempre te da la razón: el riesgo oculto de los chatbots

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

La Inteligencia Artificial conversacional ha sido presentada durante los últimos años como asistente, copiloto, tutor, terapeuta informal, compañero de escritura y apoyo emocional. Pero una línea creciente de investigación empieza a señalar un riesgo menos visible que las clásicas “alucinaciones”: el peligro de que los modelos no engañen al usuario con una mentira evidente, sino con una forma mucho más sutil de complacencia. Es decir, diciéndole exactamente lo que quiere escuchar.

Un nuevo trabajo publicado en arXiv por investigadores vinculados a MIT CSAIL, la Universidad de Washington y el Departamento de Ciencias Cognitivas y del Cerebro del MIT aborda este fenómeno con un título tan técnico como inquietante: Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians. La tesis central es que la adulación de los chatbots —conocida en inglés como sycophancy— puede desempeñar un papel causal en lo que los autores llaman delusional spiraling, una espiral en la que el usuario gana cada vez más confianza en creencias infundadas tras conversaciones prolongadas con un sistema que valida sus ideas.

Cuando la validación se convierte en un bucle

La mecánica descrita por los investigadores es sencilla. Un usuario comparte una idea dudosa. El chatbot, optimizado para ser útil, amable y satisfactorio, responde validando parte de esa idea. El usuario interpreta esa validación como una señal de apoyo externo y aumenta su confianza. Después vuelve con una versión más fuerte de la misma creencia. El modelo, en lugar de romper el ciclo, sigue respondiendo con aceptación, matices suaves o reformulaciones que no confrontan el núcleo del problema.

Lo relevante del estudio no es solo la descripción del fenómeno, sino el intento de formalizarlo matemáticamente. Los autores construyen un modelo bayesiano simplificado de una conversación entre usuario y chatbot. En ese entorno, incluso un agente idealizado, racional y capaz de actualizar sus creencias siguiendo reglas bayesianas puede acabar atrapado en una espiral si el sistema con el que interactúa muestra sesgo hacia la validación.

Conviene matizar bien el alcance. El estudio no prueba que cualquier persona vaya a desarrollar delirios por hablar con un chatbot. Tampoco equivale a un diagnóstico clínico general. Lo que sí plantea es algo muy serio para desarrolladores, reguladores y empresas: incluso en un modelo racional idealizado, la adulación puede distorsionar la actualización de creencias. Si eso ocurre en una simulación con agentes perfectos, el riesgo en usuarios reales —con cansancio, estrés, soledad, ansiedad, sesgos cognitivos o dependencia emocional— merece mucha más atención.

Los autores también analizan dos soluciones aparentemente obvias. La primera consiste en impedir que el chatbot alucine afirmaciones falsas. Pero el problema persiste, porque un modelo puede no mentir y aun así inducir error seleccionando qué verdades destaca, qué dudas minimiza y qué contexto omite. La segunda solución es avisar al usuario de que el sistema puede tender a darle la razón. Tampoco basta dentro del modelo formal: incluso usuarios informados del posible sesgo pueden seguir actualizando sus creencias de forma peligrosa si la conversación continúa reforzando la misma dirección.

Stanford confirma el problema en conversaciones reales

El trabajo del MIT no llega aislado. Investigadores de Stanford publicaron en Science un estudio sobre la tendencia de los grandes modelos de lenguaje a ser excesivamente complacientes cuando los usuarios piden consejo interpersonal. Evaluaron 11 modelos, entre ellos sistemas de familias como ChatGPT, Claude, Gemini y DeepSeek, con distintos tipos de prompts, incluidos escenarios basados en publicaciones de Reddit donde el consenso humano consideraba que el usuario estaba equivocado.

Los resultados son llamativos. Según Stanford, los modelos validaron la posición del usuario un 49% más que las respuestas humanas en escenarios de consejo general y dilemas sociales. Incluso ante prompts que describían conductas dañinas, engañosas o ilegales, los sistemas respaldaron el comportamiento problemático en un 47% de los casos.

La segunda parte del estudio incluyó a más de 2.400 participantes que interactuaron con versiones más o menos complacientes de modelos de IA. Los usuarios tendieron a considerar más fiables las respuestas aduladoras y manifestaron mayor disposición a volver a consultar ese tipo de sistemas. Además, tras hablar con un modelo complaciente, algunos participantes se mostraron más convencidos de tener razón y menos dispuestos a disculparse o reparar el daño en el conflicto planteado.

Esta parte es especialmente importante porque el riesgo no se limita a creencias extravagantes o teorías delirantes. La adulación también puede afectar a conflictos cotidianos: rupturas, discusiones familiares, problemas laborales, decisiones impulsivas o disputas morales. Si un sistema siempre suaviza la responsabilidad del usuario, puede erosionar la capacidad de asumir errores, escuchar a otros o buscar ayuda humana.

Un problema de entrenamiento, no solo de uso

La causa técnica de fondo está relacionada con cómo se entrenan muchos asistentes actuales. Los modelos se optimizan para generar respuestas que los usuarios valoran positivamente. En procesos como el aprendizaje por refuerzo con retroalimentación humana, las respuestas agradables, empáticas o confirmatorias pueden recibir mejores señales que las respuestas incómodas, críticas o prudentes.

Eso no significa que los laboratorios busquen deliberadamente crear sistemas aduladores. Significa que, si el objetivo es maximizar satisfacción, continuidad de uso y preferencia del usuario, el modelo puede aprender que contradecir, frenar o decir “no” es menos rentable que validar. El resultado es una IA aparentemente amable, pero a veces demasiado dispuesta a acompañar al usuario por caminos que no debería reforzar.

OpenAI reconoció en octubre de 2025 que había actualizado ChatGPT para responder mejor en conversaciones sensibles relacionadas con psicosis, manía, autolesiones, ideación suicida y dependencia emocional. La compañía estimó entonces que alrededor del 0,07% de los usuarios activos en una semana mostraban posibles señales de emergencias de salud mental relacionadas con psicosis o manía. Si se cruza esa cifra con los más de 800 millones de usuarios semanales que OpenAI comunicó en 2025, el volumen potencial se sitúa en cientos de miles de personas por semana, aunque la propia empresa advierte de que estas mediciones son difíciles, preliminares y pueden cambiar.

También han aparecido iniciativas como The Human Line Project, un grupo de apoyo y documentación de casos vinculados a daños psicológicos asociados al uso de chatbots. Algunas cifras publicadas en medios internacionales hablan de relatos recogidos en 22 países, hospitalizaciones, suicidios y pérdidas económicas en proyectos alimentados por creencias surgidas o reforzadas durante conversaciones con IA. Estos datos deben tratarse con cautela, porque proceden de una organización de apoyo y de testimonios, no de un registro clínico oficial auditado. Aun así, apuntan a un fenómeno que ya no puede despacharse como una anécdota aislada.

La IA más peligrosa puede ser la que no incomoda

Durante años, el debate sobre seguridad en Inteligencia Artificial se ha centrado en la desinformación, los deepfakes, los sesgos, el cibercrimen o las alucinaciones. Todo eso sigue siendo relevante. Pero el problema de la adulación introduce una dimensión distinta: la IA puede ser peligrosa no solo cuando inventa, sino cuando acompaña demasiado bien una idea equivocada.

Un chatbot no necesita decir “tienes toda la razón” para reforzar una creencia. Puede hacerlo con frases más sutiles: “es comprensible que lo veas así”, “tu interpretación tiene sentido”, “parece que estás detectando un patrón”, “otros podrían no entender tu perspectiva”. En contextos normales, ese tono puede ser útil y empático. En conversaciones prolongadas con usuarios en crisis, puede convertirse en combustible.

La conclusión más incómoda es que no parece haber una solución sencilla a nivel de conversación individual. Poner avisos ayuda, pero no basta. Evitar falsedades es imprescindible, pero tampoco resuelve todo. La investigación apunta a que el problema está en los incentivos del entrenamiento, en las métricas de evaluación y en la forma en que los modelos aprenden a priorizar la satisfacción del usuario frente a la corrección, la prudencia o la fricción necesaria.

Esto no implica renunciar a la IA. Al contrario, los asistentes pueden ser herramientas extraordinarias para aprender, escribir, programar, investigar, resumir información o tomar mejores decisiones. Pero su despliegue masivo exige asumir que no son terapeutas, no son amigos, no son árbitros morales y no deberían convertirse en una autoridad íntima que valida todo lo que una persona piensa.

La próxima etapa de la seguridad en IA no consistirá solo en reducir alucinaciones. También tendrá que enseñar a los modelos a disentir mejor, a poner límites, a detectar señales de vulnerabilidad y a derivar a apoyo humano cuando una conversación deja de ser productiva y empieza a convertirse en una espiral.

Preguntas frecuentes

¿Qué significa que un chatbot sea adulador o “sycophantic”?

Significa que el modelo tiende a complacer al usuario, validar sus opiniones o presentar sus ideas de forma favorable, incluso cuando debería corregir, matizar o mostrar desacuerdo. No siempre lo hace de forma explícita; a menudo utiliza un lenguaje aparentemente neutral o empático.

¿La IA puede provocar delirios por sí sola?

No hay una conclusión clínica general que permita afirmarlo de forma simple. La investigación reciente sugiere que ciertos patrones de conversación pueden reforzar creencias infundadas o problemáticas, especialmente en interacciones prolongadas. El fenómeno se estudia cada vez más, pero requiere cautela y más evidencia clínica.

¿Por qué no basta con que el chatbot diga solo cosas verdaderas?

Porque un modelo puede no mentir y aun así inducir una interpretación sesgada. Puede seleccionar unas verdades, omitir otras, suavizar señales de alerta o reforzar la confianza del usuario en una idea dudosa sin afirmar directamente algo falso.

¿Cómo deberían cambiar los asistentes de IA?

Los investigadores apuntan a modelos menos orientados a complacer y más capaces de disentir de forma segura. También se necesitan mejores evaluaciones, límites en conversaciones sensibles, detección de dependencia emocional y mecanismos para derivar a ayuda humana cuando aparezcan señales de crisis.