La empresa detrás de Claude afirma haber identificado patrones internos que explican el comportamiento de los LLMs
Anthropic, la firma de inteligencia artificial responsable del desarrollo del modelo Claude, ha anunciado un importante avance en el campo de la interpretabilidad de los modelos de lenguaje. A través de un estudio técnico riguroso, la compañía afirma haber conseguido “abrir la caja negra” de sus modelos y rastrear cómo toman decisiones, construyen razonamientos y, en algunos casos, por qué generan respuestas erróneas o engañosas.
La investigación, centrada en el modelo Claude 3.5 Haiku, se presenta como un hito en la comprensión del funcionamiento interno de los modelos de lenguaje de gran tamaño (LLMs, por sus siglas en inglés). Mediante una técnica inspirada en la resonancia magnética funcional, los ingenieros han logrado descomponer el modelo en piezas interpretables, mapear sus interacciones y validar su funcionamiento mediante pruebas dirigidas.
El pensamiento de la IA bajo el microscopio
A diferencia de lo que se suele asumir, los LLMs no se limitan a predecir la próxima palabra en una secuencia, según concluye el estudio de Anthropic. En tareas complejas, como la escritura creativa o la resolución de problemas, los modelos aplican mecanismos de planificación anticipada. Por ejemplo, al redactar un poema, Claude selecciona palabras que rimen con anticipación, lo que indica una estrategia deliberada y no meramente probabilística.
En el ámbito del razonamiento multilingüe, otro de los hallazgos clave revela que los modelos no utilizan caminos neuronales específicos para cada idioma. En cambio, razonan en un espacio de representación común, lo que podría explicar su capacidad para traducir, responder y comprender múltiples lenguas sin necesidad de arquitecturas diferenciadas.
¿Por qué “alucinan” las IAs?
El fenómeno conocido como “alucinaciones” —respuestas incorrectas o inventadas por la IA— también fue objeto de análisis. Los investigadores detectaron que los modelos pueden simular procesos lógicos inexistentes, ajustando sus respuestas para coincidir con los datos proporcionados, incluso cuando estos son erróneos. En algunos casos, Claude llegó a afirmar que había realizado cálculos complejos que, en realidad, nunca ocurrieron dentro de su circuito interno.
Este tipo de errores, según la investigación, no siempre son producto de limitaciones externas, sino de mecanismos internos que intentan complacer al usuario o ajustarse al contexto, aun a costa de la precisión.
CLT y los gráficos de atribución: una nueva era para entender la IA
Uno de los avances metodológicos más relevantes del estudio es la aplicación de transcodificadores entre capas (CLT, por sus siglas en inglés). A diferencia del análisis convencional que examina neuronas individuales, los CLT permiten rastrear circuitos neuronales a lo largo de varias capas del modelo, identificando patrones computacionales responsables de tareas concretas, como las conjugaciones verbales o la formación de comparativos.
Pero lo más innovador del enfoque de Anthropic es la introducción de gráficos de atribución (attribution graphs), una técnica presentada a través de su investigación publicada en transformer-circuits.pub. Este método permite visualizar cómo las contribuciones de cada parte del modelo fluyen a través del sistema hacia una predicción final, ayudando a trazar una especie de “mapa de razonamiento” entre capas, atenciones y neuronas activas.
Según los investigadores, esta técnica funciona como una generalización computacional de la explicación por atención, permitiendo identificar no solo qué partes del input influyen más en la salida, sino también cómo esas influencias se distribuyen y combinan dentro del modelo. Es una herramienta crítica para descubrir errores sistemáticos y comportamientos emergentes.
Josh Batson, investigador de Anthropic, explica que “nuestro método descompone el modelo en piezas funcionales que nos permiten ver claramente cómo distintas partes desempeñan roles específicos en el razonamiento del modelo”. Esta técnica, aunque prometedora, presenta desafíos de escalabilidad, ya que requiere una capacidad de procesamiento elevada y muchas horas de análisis para extraer conclusiones útiles.
Un primer paso hacia una IA más transparente
Los hallazgos de Anthropic abren la puerta a una nueva etapa en el desarrollo y evaluación de modelos de lenguaje. Si bien aún se trata de una aproximación parcial, la capacidad de identificar y visualizar cómo las redes neuronales “piensan” podría tener un impacto significativo en la confianza, seguridad y rendimiento de futuras generaciones de IA.
El equipo de investigación reconoce que aún queda camino por recorrer, pero considera que esta metodología puede convertirse en una herramienta esencial para auditar y mejorar modelos cada vez más complejos. En un futuro próximo, entender con precisión cómo razonan estos sistemas podría ser tan importante como diseñarlos.
Fuente: Hipertextual e investigación Anthopic