Anthropic, una startup de inteligencia artificial fundada por ex empleados de OpenAI, ha comenzado discretamente a probar un nuevo asistente de inteligencia artificial similar a ChatGPT, llamado Claude. El equipo de Anthropic nos permitió acceder al asistente, y gracias a las actualizaciones en las políticas de redes sociales de la empresa, ahora podemos compartir algunos de nuestros hallazgos preliminares en la comparación entre Claude y ChatGPT.
Para mostrar las diferencias entre ambos asistentes, se les pidió a ChatGPT y Claude que se presentaran utilizando el mismo mensaje. Claude demostró un conocimiento detallado sobre su identidad, sus creadores y los principios éticos que guiaron su diseño. Más adelante veremos cómo este conocimiento le ayuda a responder preguntas complejas sobre sí mismo y a entender los límites de sus capacidades.
Aunque Claude no profundiza en los detalles técnicos de su implementación, un documento de investigación de Anthropic sobre inteligencia artificial constitucional describe AnthropicLM v4-s3, un modelo pre-entrenado de 52 mil millones de parámetros. Este modelo autorregresivo se entrenó sin supervisión en un gran corpus de texto, de forma similar al GPT-3 de OpenAI. Anthropic nos informa que Claude es un modelo más grande con opciones arquitectónicas similares a las del estudio publicado.
Realizamos experimentos para determinar el tamaño de la ventana de contexto disponible de Claude, es decir, la cantidad máxima de texto que puede procesar de una sola vez. Según nuestras pruebas (no mostradas) y confirmado por Anthropic, Claude puede recordar información a lo largo de 8,000 tokens, más que cualquier modelo de OpenAI conocido públicamente, aunque esta habilidad no fue confiable en nuestras pruebas.
En cuanto a la inteligencia artificial constitucional, tanto Claude como ChatGPT utilizan aprendizaje por refuerzo (RL) para entrenar un modelo de preferencia sobre sus salidas, y las generaciones preferidas se utilizan para ajustes posteriores. Sin embargo, el método utilizado para desarrollar estos modelos de preferencia difiere, ya que Anthropic favorece un enfoque que denominan inteligencia artificial constitucional.
Tanto ChatGPT como la versión más reciente de GPT-3 (text-davinci-003) emplean un proceso llamado aprendizaje por refuerzo a partir de retroalimentación humana (RLHF). RLHF entrena un modelo de aprendizaje por refuerzo basado en clasificaciones de calidad proporcionadas por humanos: los humanos clasifican las salidas generadas a partir del mismo mensaje, y el modelo aprende estas preferencias para aplicarlas a otras generaciones a mayor escala.