Stability AI ha puesto a disposición pública StableLM, su primera serie de modelos de lenguaje (LLM) de código abierto. La versión Alpha incluye modelos de 3.000 y 7.000 millones de parámetros; los de 15.000 a 65.000 millones llegarán más adelante. Los modelos base pueden usarse con fines comerciales o de investigación bajo la licencia CC BY-SA-4.0.
Stability AI ya tiene un precedente en el terreno abierto: en 2022 impulsó el lanzamiento de Stable Diffusion, un modelo de generación de imágenes que se convirtió en alternativa real a las soluciones propietarias. Con StableLM da el mismo paso en texto y código. Los modelos pueden alimentar aplicaciones conversacionales y de generación de código, y están disponibles en el repositorio oficial de GitHub.
Entrenamiento: 1,5 billones de tokens sobre The Pile
StableLM se apoya en el trabajo previo de EleutherAI, un centro de investigación sin fines de lucro que entrenó GPT-J, GPT-NeoX y la suite Pythia sobre The Pile, un corpus de texto de acceso público. Otros modelos recientes como Cerebras-GPT y Dolly-2 también parten de ese trabajo.
La diferencia de StableLM está en el tamaño del conjunto de datos: 1,5 billones de tokens, tres veces más que el Pile original. Ese volumen explica que un modelo de 3.000 millones de parámetros, pequeño frente a los 175.000 millones de GPT-3, muestre resultados sólidos en conversación y código. Stability AI tiene previsto publicar los detalles técnicos del conjunto de datos próximamente.
Modelos ajustados para investigación
Junto a los modelos base, la compañía publica versiones ajustadas por instrucciones, entrenadas con cinco conjuntos de datos públicos orientados a agentes conversacionales: Alpaca, GPT4All, Dolly, ShareGPT y HH. Estas variantes están pensadas solo para investigación y se distribuyen con la licencia CC BY-NC-SA 4.0, más restrictiva que la de los modelos base y alineada con la licencia Alpaca de Stanford.
Tres prioridades de diseño
Stability AI ha declarado tres objetivos para su línea de LLM:
- Transparencia: los pesos abiertos permiten auditar el rendimiento, trabajar en interpretabilidad y detectar riesgos sin depender del fabricante. Organizaciones públicas y privadas pueden adaptar los modelos a sus datos sin compartirlos con terceros.
- Accesibilidad: los modelos están pensados para correr en hardware disponible en el mercado, sin necesidad de infraestructura propietaria de un proveedor concreto. Eso distribuye los beneficios entre más usuarios y desarrolladores.
- Utilidad práctica: el foco está en rendimiento eficiente y especializado, no en perseguir métricas de inteligencia general. La compañía describe sus herramientas como complemento a las personas, no como sustituto.
Próximos pasos
Stability AI prevé arrancar un programa de aprendizaje por refuerzo con retroalimentación humana (RLHF) abierto a la comunidad, y colaborar con proyectos como Open Assistant para construir conjuntos de datos públicos orientados a asistentes de IA. El lanzamiento de StableLM coincide con un momento de intensa actividad en el segmento de los modelos abiertos: iniciativas como Open Generative AI ya agrupan más de 200 modelos de imagen y vídeo en plataformas abiertas.
En el lado del hardware, trabajos como los de Skymizer apuntan a ejecutar modelos mucho más grandes en dispositivos compactos, lo que ampliaría el rango de hardware en el que modelos como StableLM podrían desplegarse con más capacidad en el futuro.
Preguntas frecuentes
¿Cuántos parámetros tiene StableLM?
La versión Alpha incluye modelos de 3.000 y 7.000 millones de parámetros. Stability AI tiene previsto lanzar variantes de hasta 65.000 millones.
¿Puedo usar StableLM en proyectos comerciales?
Los modelos base se distribuyen bajo la licencia CC BY-SA-4.0, que permite el uso comercial. Las versiones ajustadas por instrucciones usan la CC BY-NC-SA 4.0, que excluye el uso comercial.
¿Qué datos se usaron para entrenar StableLM?
Un conjunto experimental derivado de The Pile con 1,5 billones de tokens, tres veces mayor que el corpus original de EleutherAI.
¿En qué tareas destaca StableLM?
Según Stability AI, el modelo muestra un rendimiento alto en tareas conversacionales y de generación de código, especialmente teniendo en cuenta su tamaño reducido frente a modelos como GPT-3.
¿Qué es RLHF y por qué lo menciona Stability AI?
RLHF son las siglas de Reinforcement Learning from Human Feedback (aprendizaje por refuerzo con retroalimentación humana), una técnica para ajustar el comportamiento de un LLM a partir de valoraciones humanas sobre sus respuestas. Stability AI prevé lanzar un programa comunitario de RLHF para mejorar StableLM con aportaciones abiertas.
Fuente: Stability.ai













