Intel lanza LLM Scaler v1.0 para Project Battlematrix: hasta un 80 % más de rendimiento en GPUs Arc Pro y soporte ampliado para IA multimodal

Tras su presentación en Computex 2025, Intel ha lanzado la primera gran actualización de software para Project Battlematrix, su plataforma de inferencia optimizada para estaciones de trabajo con múltiples GPUs Arc Pro. La versión LLM Scaler v1.0 llega con mejoras significativas en rendimiento, soporte para nuevos modelos y herramientas avanzadas de gestión, reforzando la apuesta de Intel por el mercado profesional de la inteligencia artificial.


De la promesa a la realidad: la hoja de ruta se cumple

Cuando Intel presentó Project Battlematrix, prometió que en el tercer trimestre de 2025 llegaría un contenedor “Inference Optimized” con soporte para despliegue en vLLM, telemetría básica y administración simplificada. Con LLM Scaler v1.0, esa promesa se materializa, ofreciendo:

  • Escalado multi-GPU optimizado para cargas de trabajo de inferencia.
  • Transferencias PCIe P2P para reducir latencias y aumentar la eficiencia.
  • Fiabilidad de clase empresarial con ECC, SR-IOV, telemetría avanzada y actualizaciones remotas de firmware.

Principales mejoras de LLM Scaler v1.0

El contenedor está diseñado principalmente para Linux y se integra con estándares industriales para facilitar su adopción. Entre las novedades más destacadas:

Optimización de vLLM

  • Aceleración de TPOP para secuencias largas (>4K), con mejoras de hasta 1,8x en modelos KPI de 32B y 4,2x en modelos de 70B para secuencias de 40K tokens.
  • +10 % de rendimiento en modelos de 8B-32B frente a la versión anterior.
  • Cuantización por capa en línea para reducir el uso de memoria de GPU.
  • Soporte experimental para paralelismo por pipeline (PP), torch.compile y decodificación especulativa.
  • Compatibilidad con modelos de embedding y reranking.
  • Soporte mejorado para modelos multimodales.
  • Detección automática de longitud máxima y soporte para paralelismo de datos.

XPU Manager

  • Monitorización de consumo energético de GPU.
  • Actualización de firmware de GPU.
  • Diagnósticos y test de memoria con medición de ancho de banda.

Herramientas de benchmarking

  • OneCCL benchmark tool para medir el rendimiento en entornos distribuidos.

Impacto en rendimiento: hasta un 80 % más rápido

Intel asegura que LLM Scaler v1.0 puede entregar mejoras de rendimiento de hasta un 80 % gracias al escalado multi-GPU y a las optimizaciones en transferencia de datos. Estas cifras sitúan a Project Battlematrix como una alternativa competitiva para cargas de trabajo de LLMs de gran tamaño, especialmente en entornos profesionales que buscan equilibrio entre coste, consumo y rendimiento.


Lo que viene: un despliegue progresivo en 2025

La hoja de ruta de Intel marca tres hitos para este año:

  1. Q3 2025 — Versión “Inference Optimized” (ya disponible con LLM Scaler v1.0).
  2. Finales de Q3 2025 — Contenedor más robusto con mejoras en rendimiento y servicio de vLLM.
  3. Q4 2025 — Lanzamiento de la versión completa con todas las funcionalidades previstas.

Intel busca posicionarse frente a NVIDIA y AMD en IA empresarial

Con Project Battlematrix, Intel apunta a un nicho donde la IA generativa, los LLMs y la IA multimodal requieren infraestructuras de inferencia de alto rendimiento, pero no siempre con la inversión que supone un clúster de GPUs de gama de centro de datos como las NVIDIA H100 o las AMD Instinct MI300.

La compañía confía en que su combinación de GPUs Arc Pro, optimizaciones de software y herramientas de gestión empresarial pueda convertirse en una solución escalable para:

  • Centros de datos corporativos.
  • Laboratorios de I+D.
  • Estaciones de trabajo avanzadas para ingeniería, diseño y análisis de datos.

Preguntas frecuentes (FAQs)

1. ¿Qué es Project Battlematrix?
Es una solución de Intel para optimizar la inferencia de modelos de IA en estaciones de trabajo y entornos multi-GPU con Arc Pro.

2. ¿Qué mejoras aporta LLM Scaler v1.0?
Aumenta el rendimiento hasta un 80 %, reduce el consumo de memoria y añade soporte para modelos multimodales y nuevas técnicas de optimización.

3. ¿Es compatible con Windows?
Está diseñado y optimizado para entornos Linux, aunque parte de las herramientas podrían funcionar en Windows con soporte limitado.

4. ¿Compite directamente con NVIDIA y AMD?
Sí, busca posicionarse como alternativa más asequible y flexible para entornos de inferencia profesional frente a GPUs de centro de datos de NVIDIA y AMD.

Scroll al inicio