Apple lanza OpenELM: Innovación en modelos de lenguaje para dispositivos

En un movimiento sorprendente, Apple ha presentado OpenELM, una nueva familia de modelos de lenguaje pequeños y de código abierto, diseñados para funcionar de manera eficiente en dispositivos como iPhones y Macs. Este lanzamiento marca un hito en el enfoque de la compañía hacia la inteligencia artificial que opera directamente en el dispositivo, sin depender de servidores en la nube.

OpenELM se compone de ocho modelos con cuatro tamaños de parámetros distintos (270M, 450M, 1.1B y 3B), todos entrenados con conjuntos de datos públicos. Estos modelos están optimizados para su uso en dispositivos, permitiendo que tareas potenciadas por IA se realicen de manera local.

Este conjunto de modelos no solo es capaz de superar ligeramente en rendimiento a otros modelos de código abierto comparables, como OLMo, sino que también requiere la mitad de datos para su entrenamiento. Además, Apple ha liberado CoreNet, la biblioteca utilizada para entrenar OpenELM, que incluye modelos para una inferencia y ajuste fino eficientes en dispositivos de Apple.

La importancia de esta liberación radica en que Apple, tradicionalmente conocida por su enfoque restrictivo y secreto, está adoptando una postura de código abierto. Esto podría ser un indicativo de movimientos más amplios hacia la inteligencia artificial en dispositivos que Apple podría estar planeando revelar en su próxima Worldwide Developers Conference (WWDC).

El modelo OpenELM utiliza una estrategia de escalado por capas para asignar eficientemente parámetros dentro de cada capa del modelo transformador, mejorando notablemente la precisión. Por ejemplo, con un presupuesto de parámetros de aproximadamente mil millones, OpenELM muestra una mejora del 2.36% en precisión en comparación con OLMo, mientras necesita la mitad de tokens para el preentrenamiento.

Apartando las prácticas anteriores de proporcionar solo los pesos del modelo y el código de inferencia, y de preentrenar en conjuntos de datos privados, este lanzamiento incluye un marco completo para la capacitación y evaluación del modelo de lenguaje en conjuntos de datos disponibles públicamente. Esto incluye registros de entrenamiento, múltiples puntos de control y configuraciones de preentrenamiento, junto con código para convertir modelos para la biblioteca MLX para inferencia y ajuste fino en dispositivos Apple.

Con esta iniciativa, Apple no solo busca avanzar en la investigación abierta y mejorar la transparencia de los modelos de lenguaje grandes, sino también fortalecer la confianza en los resultados y permitir investigaciones sobre sesgos de datos y modelos, así como riesgos potenciales.

El código fuente de OpenELM, junto con los pesos del modelo preentrenado y las recetas de entrenamiento, está disponible en HuggingFace, prometiendo potenciar y fortalecer la comunidad de investigación abierta y allanar el camino para futuros esfuerzos de investigación abierta.

Más información: OpenELM

Scroll al inicio