Un nuevo sistema optimiza en tiempo real la ejecución de modelos de lenguaje en escenarios como hogares y vehículos inteligentes, superando a soluciones como GPT-4o en precisión, coste y latencia.
Investigadores de Carnegie Mellon University y Microsoft Research han presentado ECO-LLM, un innovador sistema de orquestación diseñado para ejecutar modelos de lenguaje de manera más eficiente entre el edge y la nube, adaptándose dinámicamente a las condiciones de coste, latencia y precisión requeridas por el usuario.
El trabajo, publicado en arXiv bajo el identificador 2507.09003, replantea la habitual lógica de selección de modelos de IA en la nube, proponiendo una estrategia más inteligente y contextual: la optimización conjunta del pipeline completo de inferencia para cada consulta.
¿Qué es ECO-LLM?
ECO-LLM (Edge-Cloud Orchestrator for Large Language Models) se compone de dos módulos principales:
- ECO-LLM Emulator: simula distintas configuraciones posibles (incluyendo etapas como recuperación de contexto o preprocesamiento) usando técnicas de clustering y selección pareto-óptima. Así, recolecta métricas de rendimiento específicas del dominio sin necesidad de probar cada combinación en producción.
- ECO-LLM Runtime: en tiempo real, selecciona la mejor estrategia de resolución de consultas, cumpliendo con los objetivos definidos por el usuario en cuanto a latencia, coste o precisión.
Este enfoque permite adaptar cada decisión a las condiciones de red, potencia del dispositivo local (edge) y características del modelo alojado en la nube.
Superando a los grandes modelos cloud
En escenarios reales como asistentes para el hogar inteligente o vehículos conectados, ECO-LLM ha demostrado un rendimiento notable:
- Precisión media del 90 %, frente al 74 % de GPT-4o.
- Reducción del 90 % en costes y del 55 % en latencia, en comparación con configuraciones exclusivamente en la nube.
- Frente a sistemas de enrutado de modelos tradicionales, ECO-LLM logra reducir el coste en un 62 % o mejorar el tiempo de respuesta en un 62 %, según las condiciones del entorno y sin perder precisión.
Un nuevo paradigma para la IA ubicua
En lugar de forzar que todas las inferencias se procesen en la nube o buscar únicamente el modelo más potente, ECO-LLM estudia la composición óptima de todo el flujo de trabajo, desde la preparación de datos hasta la ejecución final, según cada tipo de consulta.
Esto resulta especialmente valioso en aplicaciones sensibles como los coches inteligentes, donde los requisitos de tiempo de respuesta, privacidad y uso energético son críticos, y donde la conectividad puede variar constantemente.
Implicaciones para el futuro
El enfoque propuesto por los investigadores liderados por Prasoon Patidar y Ranveer Chandra abre la puerta a sistemas de IA más sostenibles, personalizables y adaptables. En lugar de depender de una infraestructura centralizada, se favorece un modelo híbrido donde el edge y la nube cooperan inteligentemente.
Además, la herramienta se alinea con la creciente necesidad de cumplir objetivos de calidad de servicio (SLOs) definidos por el usuario, como garantizar que una respuesta no supere cierto tiempo o que el coste por consulta no sobrepase un umbral.
Próximos pasos
Aunque el artículo se centra en dos escenarios de evaluación (hogar y coche inteligente), los autores señalan que el marco de ECO-LLM es aplicable a otros dominios, como salud, manufactura o asistencia remota. También se abren posibilidades para adaptar el sistema a otros tipos de modelos más allá de los LLM, como generadores de imágenes o asistentes multimodales.
Referencia:
Patidar, P., Crown, A., Hsieh, K., Xu, Y., Chakraborty, T., Chandra, R., & Agarwal, Y. (2025). Orchestration for Domain-specific Edge-Cloud Language Models. arXiv:2507.09003. https://doi.org/10.48550/arXiv.2507.09003