La inferencia es el proceso por el que un modelo de IA ya entrenado procesa datos nuevos para hacer predicciones o tomar decisiones. Si el entrenamiento es cuando el modelo aprende —ajustando parámetros con grandes volúmenes de datos—, la inferencia es cuando ese modelo se usa de verdad: cuando ChatGPT responde una pregunta, cuando un sistema de conducción autónoma detecta un obstáculo, o cuando un filtro de spam clasifica un correo.
El rendimiento en producción no depende solo del modelo entrenado, sino de cómo se ejecuta esa inferencia en hardware real, con latencia, coste y consumo energético concretos. La guía sobre cómo funcionan los LLM cubre la fase de preentrenamiento; este artículo trata lo que ocurre después.
Qué ocurre durante la inferencia
Cuando un modelo recibe un input —un texto, una imagen, un audio—, lo convierte en vectores numéricos, pasa por las capas del modelo y produce un output: una respuesta, una clasificación, una predicción. En los modelos de lenguaje basados en transformers, el proceso genera un token cada vez, evaluando probabilidades sobre todo el vocabulario en cada paso. Por eso el número de tokens influye tanto en el coste y la latencia.
La inferencia es menos costosa que el entrenamiento en términos absolutos, pero ocurre millones de veces al día en un servicio a escala. Una petición a la API de GPT-4o implica decenas de pasos de forward pass sobre un modelo de cientos de miles de millones de parámetros. El coste total en producción acaba superando al del entrenamiento, que se realiza una sola vez.
Los tres parámetros que miden la inferencia
- Latencia: tiempo que tarda el modelo en responder desde que recibe el input. En aplicaciones de tiempo real (conducción autónoma, detección de fraude) es el factor más importante. Se mide en milisegundos para el primer token (time-to-first-token, TTFT) o para la respuesta completa.
- Throughput: número de peticiones o tokens que el sistema procesa por segundo. Relevante para servicios con muchos usuarios simultáneos, donde la latencia por petición puede ser aceptable pero el volumen no puede saturar la infraestructura.
- Coste por token: el indicador económico principal. Los proveedores de API como OpenAI o Anthropic facturan en millones de tokens; para aplicaciones con muchos usuarios, reducir este coste marca la diferencia entre un modelo de negocio viable y uno que no lo es.
Técnicas para acelerar la inferencia
Varias técnicas que ya se aplican en producción permiten recortar coste y latencia sin cambiar el modelo base:
- Cuantización: reduce la precisión de los parámetros (de float32 a int8 o int4). Acelera la inferencia y reduce el consumo de memoria con una pérdida de precisión mínima en muchos modelos.
- Destilación: un modelo pequeño (alumno) aprende a imitar el comportamiento de uno grande (profesor). El resultado ocupa menos y corre más rápido, con alguna pérdida de capacidad.
- Speculative decoding: un modelo pequeño genera un borrador de respuesta que el modelo grande verifica en paralelo. Reduce la latencia sin cambiar los parámetros del modelo principal.
La mejora tampoco llega solo del hardware. EAGLE 3.1 demuestra que mejorar el software de inferencia puede multiplicar la velocidad de respuesta sin tocar las GPU, lo que permite reducir costes sin necesidad de nuevo hardware.
Inferencia local vs. inferencia en la nube
Hay dos formas de ejecutar inferencia: usar la API de un proveedor (OpenAI, Anthropic, Google) o desplegar el modelo en infraestructura propia. La API es más simple de arrancar, pero tiene coste variable y dependencia de terceros para datos potencialmente sensibles. La inferencia local requiere hardware (GPU, NPU o aceleradores especializados) y experiencia técnica, pero da control total sobre latencia, coste y privacidad.
Para las empresas que evalúen qué infraestructura elegir, Revistacloud analiza propuestas como FlexPod de NetApp y Cisco, diseñada para cargas de trabajo de IA en entornos empresariales.
Para quien quiere llevar la inferencia local a perfiles menos técnicos, Odysseus permite ejecutar modelos avanzados en hardware propio sin gestionar toda la infraestructura desde cero. La demanda de especialistas en este área no para de crecer, con planes de formación específica de 500 horas para cubrir ese hueco.
Preguntas frecuentes
¿Qué diferencia hay entre entrenamiento e inferencia en IA?
El entrenamiento ajusta los parámetros del modelo con grandes volúmenes de datos. La inferencia usa esos parámetros ya fijados para procesar datos nuevos. El entrenamiento se hace una vez (o pocas veces); la inferencia ocurre en cada petición del usuario.
¿Qué hardware se usa para inferencia?
Las GPU de NVIDIA (A100, H100, H200) son las más usadas en centros de datos. Para edge computing hay NPU específicas, como las de Apple Silicon o Qualcomm. Para modelos pequeños también es posible ejecutar inferencia en CPU de gama alta.
¿Qué es la cuantización en inferencia?
La cuantización reduce la precisión numérica de los parámetros del modelo (de 32 bits a 8 o 4 bits). Reduce el uso de memoria y acelera la inferencia, con una pérdida de calidad que depende del modelo y el nivel de cuantización aplicado.
¿Qué es la latencia de inferencia?
La latencia de inferencia es el tiempo que transcurre desde que el modelo recibe el input hasta que devuelve el output. En modelos de lenguaje se mide en tiempo hasta el primer token (TTFT) y en tiempo total de la respuesta. Es un factor clave en aplicaciones de tiempo real como chatbots, detección de intrusiones o sistemas de recomendación.













