El Instituto Allen de Inteligencia Artificial (AI2, por sus siglas en inglés) ha dado un paso significativo en la democratización de la inteligencia artificial con el lanzamiento de OLMo, un marco de modelos de lenguaje grande (LLM, por sus siglas en inglés) estado del arte y verdaderamente open source. Este lanzamiento marca un cambio crítico en el desarrollo de IA, proporcionando a la industria una alternativa a los modelos actuales que son restrictivos y cerrados.
En un mundo que compite por desplegar modelos de IA efectivos y seguros, la demanda de LLM abiertos ha explotado. La adopción masiva de modelos de IA, tanto abiertos como cerrados, ha avanzado más rápido de lo que podemos comprender en cuanto a su creación. La liberación del marco OLMo brinda a la industria la oportunidad de entender qué ocurre dentro de los modelos de IA.
«Estamos contentos de poder contribuir a esta iniciativa importante, proporcionando la capacidad de cómputo del superordenador LUMI junto con nuestra experiencia. Los superordenadores públicos como LUMI juegan un papel vital en la infraestructura para una IA abierta y transparente», expresó un representante de la colaboración.
Hoy, AI2 ha lanzado OLMo 7B, un modelo de lenguaje grande verdaderamente open source, junto con los datos de preentrenamiento y el código de entrenamiento, algo que ningún otro modelo abierto de esta escala ofrece actualmente. Esto empodera a investigadores y desarrolladores a usar los mejores modelos abiertos para avanzar colectivamente en la ciencia de los modelos de lenguaje.
«Los modelos de fundación abiertos han sido críticos en impulsar una explosión de innovación y desarrollo alrededor de la IA generativa», dijo Yann LeCun, Científico Jefe de IA en Meta. «La vibrante comunidad que surge del open source es la manera más rápida y efectiva de construir el futuro de la IA.»
OLMo y su marco están diseñados para ayudar a los investigadores en el entrenamiento y experimentación con modelos de lenguaje grande. Están disponibles para descarga directa en Hugging Face y en GitHub. Este trabajo fue posible, en parte, gracias a una colaboración con el Instituto Kempner para el Estudio de la Inteligencia Natural y Artificial en la Universidad de Harvard y socios incluyendo AMD, CSC – IT Center for Science (Finlandia), la Escuela de Ciencias de la Computación e Ingeniería Paul G. Allen de la Universidad de Washington y Databricks.
El marco incluye una suite de herramientas de desarrollo de IA completamente abiertas, incluyendo:
- Datos completos de preentrenamiento: El modelo se construye sobre el conjunto Dolma de AI2, que presenta un corpus abierto de tres billones de tokens para el preentrenamiento del modelo de lenguaje, incluido el código que produce los datos de entrenamiento.
- Código de entrenamiento y pesos del modelo: El marco OLMo incluye pesos completos del modelo para cuatro variantes del modelo a escala de 7B, cada uno entrenado con al menos 2T tokens. El código de inferencia, métricas de entrenamiento y registros de entrenamiento también se proporcionan.
- Evaluación: Hemos lanzado la suite de evaluación usada en el desarrollo, completa con más de 500 puntos de control por modelo, de cada 1000 pasos durante el proceso de entrenamiento y código de evaluación bajo el proyecto Catwalk.
«Estoy entusiasmado de poner OLMo en manos de investigadores de IA», dijo Eric Horvitz, Oficial Científico Jefe de Microsoft y miembro fundador de la Junta Asesora Científica de AI2. «La nueva oferta continúa la tradición de Allen AI de proporcionar modelos abiertos valiosos, herramientas y datos, que han impulsado numerosos avances en IA en la comunidad global.»
Con OLMo, los investigadores y desarrolladores de IA experimentarán mayor precisión, menos carbono y resultados duraderos. Al hacer OLMo y sus datos de entrenamiento completamente accesibles al público, AI2 ha dado un gran paso hacia la construcción colaborativa del mejor modelo de lenguaje abierto del mundo. En los próximos meses, AI2 continuará iterando en OLMo, introduciendo diferentes tamaños de modelos, modalidades, conjuntos de datos y capacidades en la familia OLMo.
«Muchos modelos de lenguaje hoy se publican con transparencia limitada. Sin acceso a los datos de entrenamiento, los investigadores no pueden entender científicamente cómo funciona un modelo», dijo Hanna Hajishirzi, líder del proyecto OLMo, directora senior de investigación de PNL en AI2 y profesora en la Escuela Allen de la UW. «Con nuestro nuevo marco, los investigadores finalmente podrán estudiar la ciencia de los LLMs, lo cual es crítico para construir la próxima generación de IA segura y confiable.»
Este lanzamiento no solo mejora la transparencia y la accesibilidad en el desarrollo de IA, sino que también establece un nuevo estándar de colaboración y apertura en la comunidad de investigación de IA, promoviendo un futuro donde la tecnología de IA sea más responsable y beneficie a todos.