Un estudio de Apple revela importantes limitaciones en la capacidad de razonamiento de los Modelos de Lenguaje de Gran Escala

Investigadores de Apple han publicado un nuevo estudio que destaca importantes limitaciones en las capacidades de razonamiento matemático de los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés), incluidas las versiones avanzadas de los principales laboratorios de Inteligencia Artificial, como los modelos GPT-4 y GPT-3.5.

El equipo de Apple desarrolló un nuevo estándar denominado GSM-Symbolic para evaluar de manera más precisa las habilidades de razonamiento matemático de estos modelos. Los resultados revelaron que ligeros cambios en la redacción de las preguntas o la adición de información irrelevante alteraron drásticamente las respuestas generadas por los modelos, reduciendo la precisión en hasta un 65 %. Además, los investigadores detectaron un aumento en la variabilidad del rendimiento y una disminución de la exactitud a medida que aumentaba la complejidad de las preguntas.

Según los científicos de Apple, los modelos de lenguaje actuales no muestran evidencia de un razonamiento formal auténtico, lo que sugiere que su comportamiento está más relacionado con un sofisticado patrón de coincidencia en lugar de un razonamiento lógico estructurado. Esta conclusión, respaldada por el uso de GSM-Symbolic, pone en duda la fiabilidad de estos modelos en aplicaciones más complejas y plantea preguntas sobre los riesgos de su implementación en ámbitos críticos.

Aunque existen opiniones divididas sobre la capacidad real de razonamiento de los LLM, este nuevo estudio coloca a la investigación de Apple en el campo de quienes argumentan que aún no hay pruebas sólidas de que estos modelos puedan razonar de forma formal y fiable en situaciones complejas. La investigación subraya la necesidad de desarrollar métodos de evaluación más rigurosos y confiables para evitar los riesgos potenciales de su despliegue en aplicaciones más exigentes.

Este estudio marca un paso importante hacia la comprensión de las verdaderas capacidades y limitaciones de los Modelos de Lenguaje de Gran Escala, cuya adopción ha crecido exponencialmente en los últimos años.

Scroll al inicio