Cortex: la nueva plataforma de IA local para ejecutar y personalizar modelos de lenguaje

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

La plataforma de IA local Cortex se ha posicionado como una alternativa segura y personalizable para ejecutar modelos de lenguaje (LLMs) de forma offline, ideal para usuarios y empresas que valoran la privacidad y el control total sobre sus datos. Con una implementación completa en C++, Cortex permite ejecutar modelos de IA tanto en ordenadores de escritorio como en dispositivos móviles, además de integrar fácilmente con aplicaciones como Jan.ai.

Características clave de Cortex

Cortex ha sido diseñada con un enfoque en la flexibilidad y el acceso a modelos de IA. Entre sus características más destacadas se encuentran:

Interfaz CLI intuitiva: inspirada en Ollama, facilita la interacción con los modelos y comandos.
Biblioteca de modelos integrados: los usuarios pueden descargar modelos desde Hugging Face o la propia biblioteca de Cortex.
Almacenamiento universal de modelos: los modelos se almacenan en formatos universales, evitando los archivos en formato blob, lo que permite una gestión más sencilla.
Motores de inferencia intercambiables: Cortex utiliza llama.cpp como motor de inferencia por defecto, con planes para añadir soporte a ONNX Runtime y TensorRT-LLM en futuras versiones, optimizando el rendimiento en diversas configuraciones de hardware.

Además, Cortex se puede configurar como un servidor API independiente o integrarse con aplicaciones para ofrecer una API similar a OpenAI. En su hoja de ruta, Cortex tiene previsto implementar API de tiempo real, multimodal y herramientas para ampliar sus capacidades.

Modelos y requisitos de memoria

Cortex permite a los usuarios descargar modelos de IA desde diferentes hubs, con opciones que incluyen modelos ligeros y optimizados. Los requisitos de memoria varían según el tamaño del modelo:

Modelos de 7B: se recomienda 8 GB de RAM
Modelos de 14B: se recomienda 16 GB de RAM
Modelos de 32B: se recomienda 32 GB de RAM

Entre los modelos disponibles se encuentran Llama3.1, Gemma2, Mistral, Qwen2.5, y otros más. Los modelos están optimizados para funcionar en la plataforma llama.cpp, y los usuarios pueden seleccionar entre múltiples niveles de cuantización, ajustando el rendimiento y la precisión.

Soporte de GPU y motores de inferencia avanzados

Cortex aprovecha la aceleración de GPU si el hardware lo permite, habilitándola de manera predeterminada para mejorar el rendimiento en tareas de inferencia. Los motores futuros, como ONNX Runtime y TensorRT-LLM, facilitarán la compatibilidad con GPUs de Nvidia y sistemas avanzados, incluyendo PCs con Windows Copilot y NPUs.

Instalación y uso en múltiples plataformas

Cortex ofrece un instalador local y otro en red para los usuarios de Windows, macOS y Linux:

Instalador local: Incluye todas las dependencias necesarias para funcionar sin conexión.
Instalador en red: Más liviano, descarga las dependencias de la red durante la instalación.

Para instalar en Linux, los usuarios pueden ejecutar el siguiente comando:

sudo apt install ./cortex-local-installer.deb

Una vez instalado, el CLI de Cortex permite a los usuarios ejecutar modelos y comandos como:

cortex pull llama3.2
cortex run llama3.2

Desinstalación de Cortex

La plataforma también facilita la desinstalación en cada sistema operativo:

Windows: A través del Panel de Control.
macOS: Ejecutando el script cortex-uninstall.sh.
Linux: Usando el comando sudo apt remove cortexcpp.

Soporte y versiones avanzadas

Cortex se encuentra en desarrollo activo, con versiones beta y nightly disponibles para usuarios avanzados que deseen probar nuevas funcionalidades. Además, los desarrolladores proporcionan soporte a través de GitHub y Discord, y cuentan con una documentación completa de referencia.

Con sus características avanzadas y un enfoque en el control y la privacidad, Cortex es una opción prometedora para quienes desean trabajar con IA en entornos locales, evitando la dependencia de la nube y garantizando un rendimiento adaptado a las necesidades de cada usuario.

Más información en GitHub y web Cortex.so