Las máquinas no entienden: solo comprimen. Una nueva investigación revela los límites cognitivos de los modelos de lenguaje

Un estudio liderado por investigadores como Dan Jurafsky y Yann LeCun pone de relieve que los modelos de lenguaje como ChatGPT o Gemini priorizan la compresión estadística sobre la comprensión conceptual, marcando una brecha profunda con la forma en que los humanos entienden el mundo.

Mientras los modelos de lenguaje de última generación impresionan con sus respuestas articuladas, una nueva investigación sugiere que, tras esa fluidez, no hay verdadera comprensión. El estudio titulado “From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning”, firmado por un equipo de prestigiosos investigadores como Dan Jurafsky, Yann LeCun, Ravid Shwartz-Ziv y Chen Shani, desmonta el mito de que los sistemas de inteligencia artificial comprenden el mundo del mismo modo que los humanos.

La clave está en la compresión. Los humanos, según los autores, categorizan la realidad mediante un equilibrio entre simplicidad representacional y fidelidad semántica. Es decir, entienden que un petirrojo y un arrendajo azul son distintos, aunque ambos se clasifiquen como “aves”, y manejan sin problemas la ambigüedad contextual que implica que algunos pájaros vuelan y otros no. Los modelos de lenguaje, en cambio, buscan optimizar su eficiencia estadística. Para ellos, un pato y un pingüino podrían acabar indistintamente en el mismo cajón conceptual, perdiendo los matices que definen la singularidad de cada uno.

Tal y como recoge una publicación reciente del divulgador digital Corti (@josek_net) en X (anteriormente Twitter), “los humanos no priorizamos la eficiencia estadística. Nos movemos en un caos flexible de conceptos que a veces se solapan, otras se contradicen, pero que nos permiten inferir, adaptarnos, razonar, improvisar.” Frente a esto, añade, los LLMs (Modelos de Lenguaje de Gran Escala) “son obsesivos con la compresión: reducen todo a patrones estadísticos optimizados, perdiendo con frecuencia los matices que hacen que un pato no sea igual que un pingüino”.

El estudio se apoya en principios de la teoría de la información, como la Rate-Distortion Theory y el Information Bottleneck, para comparar cuantitativamente cómo los humanos y los LLMs representan conceptos. Al analizar los token embeddings de varios modelos frente a benchmarks clásicos de categorización humana, los investigadores observaron que, si bien los LLMs logran formar categorías conceptuales amplias, fracasan en capturar distinciones semánticas finas y, sobre todo, carecen de intuición sobre lo que es típico o atípico en una categoría.

En otras palabras, los modelos actuales no entienden el concepto de “normalidad” dentro de una categoría, ni operan con las reglas informales y el contexto ambiguo que para los humanos son parte esencial del pensamiento.

La “gloriosa ineficiencia” humana

Una de las conclusiones más provocadoras del estudio es que la supuesta ineficiencia estadística del cerebro humano es, en realidad, una ventaja evolutiva. Nuestra manera desordenada y redundante de clasificar y entender el mundo no es un defecto, sino una característica esencial que permite la adaptabilidad, la creatividad y la capacidad de comprender lo inesperado.

Mientras los modelos de lenguaje buscan la compresión óptima, los humanos prefieren mantener representaciones conceptuales ricas en contexto, incluso si eso implica un mayor coste cognitivo o menor eficiencia desde el punto de vista computacional.

Corti lo resume con una afirmación contundente: “Los LLMs están optimizados para comprimir, no para entender. No tienen intuición. No tienen concepto de típico o atípico. No priorizan el contexto. No ‘viven’ en la ambigüedad como lo hacemos los humanos.”

Implicaciones para la construcción de IA

Los hallazgos de esta investigación abren una reflexión importante para quienes desarrollan y utilizan inteligencia artificial: un buen resultado no implica verdadera comprensión. Confiar ciegamente en la salida de un modelo sin entender sus limitaciones puede llevar a errores de juicio en contextos críticos, como la medicina, el derecho o la educación.

Por tanto, si se quiere avanzar hacia una IA verdaderamente “inteligente” en el sentido humano, será necesario repensar las arquitecturas de los modelos más allá de la compresión estadística. Tal vez, como sugiere el estudio, eso implique sacrificar algo de eficiencia para ganar en profundidad conceptual.

Hasta entonces, como apunta la publicación original, los humanos harían bien en celebrar su “gloriosa ineficiencia”, porque es precisamente ese caos flexible e improvisado lo que nos permite entender el mundo, y no solo describirlo.

Enlace al estudio completo en arXiv:
https://arxiv.org/abs/2505.17117

Scroll al inicio