La plataforma de IA local Cortex se ha posicionado como una alternativa segura y personalizable para ejecutar modelos de lenguaje (LLMs) de forma offline, ideal para usuarios y empresas que valoran la privacidad y el control total sobre sus datos. Con una implementación completa en C++, Cortex permite ejecutar modelos de IA tanto en ordenadores de escritorio como en dispositivos móviles, además de integrar fácilmente con aplicaciones como Jan.ai.
Características clave de Cortex
Cortex ha sido diseñada con un enfoque en la flexibilidad y el acceso a modelos de IA. Entre sus características más destacadas se encuentran:
- Interfaz CLI intuitiva: inspirada en Ollama, facilita la interacción con los modelos y comandos.
- Biblioteca de modelos integrados: los usuarios pueden descargar modelos desde Hugging Face o la propia biblioteca de Cortex.
- Almacenamiento universal de modelos: los modelos se almacenan en formatos universales, evitando los archivos en formato blob, lo que permite una gestión más sencilla.
- Motores de inferencia intercambiables: Cortex utiliza llama.cpp como motor de inferencia por defecto, con planes para añadir soporte a ONNX Runtime y TensorRT-LLM en futuras versiones, optimizando el rendimiento en diversas configuraciones de hardware.
Además, Cortex se puede configurar como un servidor API independiente o integrarse con aplicaciones para ofrecer una API similar a OpenAI. En su hoja de ruta, Cortex tiene previsto implementar API de tiempo real, multimodal y herramientas para ampliar sus capacidades.
Modelos y requisitos de memoria
Cortex permite a los usuarios descargar modelos de IA desde diferentes hubs, con opciones que incluyen modelos ligeros y optimizados. Los requisitos de memoria varían según el tamaño del modelo:
- Modelos de 7B: se recomienda 8 GB de RAM
- Modelos de 14B: se recomienda 16 GB de RAM
- Modelos de 32B: se recomienda 32 GB de RAM
Entre los modelos disponibles se encuentran Llama3.1, Gemma2, Mistral, Qwen2.5, y otros más. Los modelos están optimizados para funcionar en la plataforma llama.cpp, y los usuarios pueden seleccionar entre múltiples niveles de cuantización, ajustando el rendimiento y la precisión.
Soporte de GPU y motores de inferencia avanzados
Cortex aprovecha la aceleración de GPU si el hardware lo permite, habilitándola de manera predeterminada para mejorar el rendimiento en tareas de inferencia. Los motores futuros, como ONNX Runtime y TensorRT-LLM, facilitarán la compatibilidad con GPUs de Nvidia y sistemas avanzados, incluyendo PCs con Windows Copilot y NPUs.
Instalación y uso en múltiples plataformas
Cortex ofrece un instalador local y otro en red para los usuarios de Windows, macOS y Linux:
- Instalador local: Incluye todas las dependencias necesarias para funcionar sin conexión.
- Instalador en red: Más liviano, descarga las dependencias de la red durante la instalación.
Para instalar en Linux, los usuarios pueden ejecutar el siguiente comando:
sudo apt install ./cortex-local-installer.deb
Una vez instalado, el CLI de Cortex permite a los usuarios ejecutar modelos y comandos como:
cortex pull llama3.2
cortex run llama3.2
Desinstalación de Cortex
La plataforma también facilita la desinstalación en cada sistema operativo:
- Windows: A través del Panel de Control.
- macOS: Ejecutando el script
cortex-uninstall.sh
. - Linux: Usando el comando
sudo apt remove cortexcpp
.
Soporte y versiones avanzadas
Cortex se encuentra en desarrollo activo, con versiones beta y nightly disponibles para usuarios avanzados que deseen probar nuevas funcionalidades. Además, los desarrolladores proporcionan soporte a través de GitHub y Discord, y cuentan con una documentación completa de referencia.
Con sus características avanzadas y un enfoque en el control y la privacidad, Cortex es una opción prometedora para quienes desean trabajar con IA en entornos locales, evitando la dependencia de la nube y garantizando un rendimiento adaptado a las necesidades de cada usuario.