Alucinaciones en ChatGPT: cómo los LLM fabrican datos falsos

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

ChatGPT, el asistente de texto de OpenAI basado en el modelo GPT-3.5 (y GPT-4 para usuarios de pago), tiene un problema conocido y documentado: genera información que suena verosímil pero que es falsa. Los expertos llaman a este fenómeno «alucinaciones» o «confabulación», y afecta a cualquier modelo de lenguaje grande (LLM, del inglés Large Language Model). El problema cobró más visibilidad cuando varios usuarios documentaron cómo el modelo citaba artículos de The Guardian que nunca habían existido, estudios sobre mortalidad infantil fabricados desde cero y fuentes inventadas sobre temas sensibles.

El problema no es un fallo puntual ni un error de configuración. Es estructural al modo en que funcionan estos modelos. Un LLM no recupera información de una base de datos: predice el texto más probable según los patrones de su entrenamiento. Si el modelo no tiene datos sobre una pregunta concreta, genera la respuesta que estadísticamente parece más correcta, aunque los hechos sean inventados.

Por qué los modelos de lenguaje fabrican datos

La arquitectura transformer, base de GPT y de la mayoría de LLM actuales, no distingue entre lo que sabe y lo que no sabe. El modelo optimiza la coherencia del texto, no su veracidad. Cuando se le pregunta por un artículo de The Guardian sobre un tema concreto y no tiene ese artículo en su entrenamiento, construye un titular, un autor y una fecha plausibles porque eso es lo que maximiza la probabilidad del siguiente token. No miente con intención: simplemente no tiene mecanismo para decir «no lo sé».

Los casos documentados incluyen referencias académicas inventadas con DOI inaccesibles, declaraciones atribuidas a personas reales que nunca las hicieron y estadísticas que no corresponden a ningún estudio publicado. OpenAI reconoce el problema en su documentación técnica y lo califica como limitación conocida, aunque las versiones más recientes (GPT-4 Turbo, GPT-4o) han reducido la tasa de alucinaciones en algunos benchmarks de razonamiento factual como TruthfulQA, sin eliminarla del todo.

El paralelo con los libros de texto

La controversia sobre los libros de texto en algunas comunidades autónomas españolas añade un ángulo relevante al debate. En los últimos años se han documentado casos de materiales educativos que contenían datos geográficos erróneos o sesgados, lo que generó quejas de familias y docentes sobre la calidad de la supervisión editorial. El paralelo con ChatGPT no es exacto —los libros de texto pasan por revisores humanos, aunque el proceso falle— pero en ambos casos el resultado es el mismo: el lector recibe información incorrecta de una fuente percibida como fiable.

La diferencia clave está en la velocidad y el volumen. Un libro de texto defectuoso llega a miles de estudiantes en un curso. Un modelo de lenguaje con tendencia a alucinaciones puede generar millones de respuestas incorrectas en horas, lo que amplifica el riesgo de que la información errónea se propague antes de que se detecte o corrija. Eso es especialmente relevante en temas como salud, derecho o datos estadísticos, donde los usuarios tienden a dar por bueno lo que responde una herramienta técnica sofisticada.

Cómo detectar una alucinación antes de usarla

La mejor defensa es el contraste de fuentes. Cualquier dato concreto que genere un LLM —cifra, fecha, nombre de estudio, cita— debería verificarse en la fuente original antes de usarlo. Los buscadores académicos como Google Scholar o PubMed permiten confirmar si un artículo con un DOI o autor concreto existe realmente. Para artículos periodísticos, la búsqueda directa en el sitio del medio es el paso más rápido.

Algunas señales de alerta que apuntan a posible alucinación: el modelo describe con mucho detalle una fuente que no se puede encontrar, atribuye frases exactas a personas sin citar transcripciones verificables, o da estadísticas con decimales que ningún informe oficial respalda. El propio ChatGPT puede reconocer una alucinación si se le pregunta directamente y se le ofrece la oportunidad de corregirse, aunque no siempre lo hace con consistencia. Para saber qué medidas de seguridad aplica OpenAI a nivel de cuentas y acceso, este artículo sobre la seguridad avanzada de ChatGPT detalla los pasos que ha dado la compañía.

Quién debe resolver el problema

La carga de la verificación no puede caer solo en el usuario final. OpenAI, Google (con Gemini), Anthropic (con Claude) y el resto de laboratorios de IA trabajan en técnicas de reducción de alucinaciones: RAG (Retrieval-Augmented Generation, generación aumentada con recuperación de información), que ancla las respuestas en documentos concretos; grounding, que cita fuentes en tiempo real; y alineamiento mediante RLHF (Reinforcement Learning from Human Feedback) para que el modelo aprenda a reconocer la incertidumbre. El avance es real pero gradual.

Mientras tanto, organizaciones como la OCDE y la Unión Europea han incluido la fiabilidad y la transparencia de los sistemas de IA entre los requisitos del AI Act, que obliga a los proveedores de modelos de propósito general a documentar sus limitaciones y riesgos conocidos. Un paso que pone la presión legal donde antes solo había recomendaciones voluntarias. Si te interesa entender más sobre cómo los sistemas de IA gestionan las instrucciones y los límites del conocimiento, este análisis sobre la propiedad del prompt aborda otro ángulo del mismo problema.

Preguntas frecuentes sobre las alucinaciones en ChatGPT

¿Qué es exactamente una alucinación en un modelo de lenguaje?

Una alucinación es una respuesta generada por un LLM que es factualmente incorrecta pero que el modelo presenta como si fuera verídica. No es un error de cálculo: el modelo predice texto plausible sin tener acceso real a los hechos que describe.

¿ChatGPT es el único modelo que alucina?

No. Las alucinaciones son un problema común a todos los grandes modelos de lenguaje actuales, incluidos Gemini de Google, Claude de Anthropic, Llama de Meta y Mistral. La tasa varía según el modelo y el tipo de pregunta, pero ninguno está libre del problema.

¿Se puede confiar en las citas que genera ChatGPT?

No sin verificación previa. ChatGPT puede generar títulos de artículos, autores, revistas y años de publicación que suenan correctos pero que corresponden a documentos inexistentes. Conviene buscar la fuente en Google Scholar, PubMed o directamente en el sitio del medio antes de usarla.

¿RAG resuelve el problema de las alucinaciones?

RAG reduce las alucinaciones al anclar las respuestas en documentos concretos recuperados en tiempo real. No las elimina del todo, porque el modelo puede seguir interpretando mal los fragmentos recuperados, pero la tasa de errores factuales baja bastante en escenarios con fuentes bien definidas.

¿El AI Act europeo obliga a corregir las alucinaciones?

El AI Act no exige que los modelos sean infalibles, pero sí requiere que los proveedores de modelos de propósito general documenten sus capacidades y limitaciones, incluyendo el riesgo de generación de contenido incorrecto. Los modelos con mayor capacidad quedan sujetos a evaluaciones de riesgo más estrictas.

¿Cuándo es más frecuente que un LLM alucine?

Las alucinaciones son más frecuentes cuando la pregunta toca temas con poca representación en los datos de entrenamiento, cuando se pide una referencia bibliográfica muy específica, cuando el modelo trabaja fuera de su ventana de conocimiento (fecha de corte) o cuando la respuesta es ambigua o difícil de verificar externamente.