Modelos de machine learning: qué son y cómo funcionan

El machine learning dejó de ser un concepto de laboratorio hace tiempo. Hoy decide qué correo entra en spam, qué serie te recomienda Netflix y qué imagen aparece cuando buscas en Google. Detrás de cada uno de esos servicios hay un modelo entrenado con datos, no un programa con reglas escritas a mano. Esta guía repasa qué tipos de modelos existen, en qué se diferencian los grandes modelos de lenguaje (LLM) que han popularizado a OpenAI, Anthropic o Mistral, y por dónde van los esfuerzos para que entrenarlos no salga tan caro ni tan contaminante.

Qué es un modelo de machine learning

Un modelo de machine learning es una función matemática que aprende a hacer una tarea a partir de ejemplos. En vez de que un programador escriba paso a paso las reglas para distinguir un gato de un perro en una foto, se le entregan miles de imágenes etiquetadas y el algoritmo ajusta sus parámetros internos hasta que acierta. Ese proceso de ajuste se llama entrenamiento, y el resultado —los parámetros aprendidos— es lo que entendemos por modelo.

La diferencia con la programación clásica es importante: en un modelo de machine learning no hay una regla explícita que diga «si las orejas son puntiagudas, es un gato». Lo que hay son millones de pesos numéricos que, combinados, capturan patrones que muchas veces ni siquiera quienes diseñaron el modelo saben describir.

Tipos principales: supervisado, no supervisado y refuerzo

La taxonomía clásica distingue tres familias, según cómo aprende el modelo:

  • Aprendizaje supervisado: cada ejemplo viene con una etiqueta. El modelo aprende a predecir esa etiqueta a partir de las variables de entrada. Ejemplos típicos: predecir el precio de una vivienda con datos de zona, metros y habitaciones, o detectar si un correo es spam.
  • Aprendizaje no supervisado: los datos no llevan etiqueta. El algoritmo busca estructura por su cuenta: agrupa clientes con hábitos parecidos, detecta anomalías en transacciones bancarias o reduce la dimensionalidad de un dataset.
  • Aprendizaje por refuerzo: el modelo prueba acciones en un entorno y recibe recompensas o penalizaciones. Es la base de los sistemas que juegan al ajedrez, al Go o que afinan el comportamiento de un asistente conversacional con feedback humano (RLHF).

Hay variantes intermedias —semi-supervisado, auto-supervisado— que combinan ideas de las anteriores y son la base sobre la que se entrenan los modelos masivos actuales.

Grandes modelos de lenguaje: del NLP académico al chat masivo

Los grandes modelos de lenguaje (LLM, large language models) son la rama del machine learning que más atención ha capturado fuera del ámbito técnico. Se entrenan con cantidades enormes de texto extraído de la web, libros y código, y aprenden a predecir la siguiente palabra a partir de las anteriores. De esa tarea, aparentemente trivial, surge la capacidad de redactar, traducir, programar o resumir.

El punto de inflexión llegó en 2020 con GPT-3, el modelo de OpenAI con 175.000 millones de parámetros. Demostró que escalar la red y los datos producía saltos cualitativos que no se veían con modelos pequeños: razonamiento aritmético básico, redacción coherente, traducción aceptable sin fine-tuning específico. A partir de ahí, las generaciones posteriores de OpenAI, Anthropic, Google, Meta o Mistral han ido refinando arquitecturas, contexto y técnicas de alineamiento.

El sector se mueve rápido. Mistral, por ejemplo, acaba de presentar un modelo de 128.000 millones de parámetros orientado a agentes que se ejecutan en la nube, como contamos en la cobertura sobre Mistral Medium 3.5. Y la conversación ya no va solo de tamaño: cada vez pesa más cómo de bien razonan, qué herramientas pueden usar y a qué coste responden cada consulta.

Por qué los LLM no son magia (y por qué cuestan tanto)

Entrenar un modelo de cientos de miles de millones de parámetros consume mucha electricidad y requiere miles de GPU funcionando en paralelo durante semanas. Pero la factura no acaba ahí: cada vez que un usuario hace una pregunta, el modelo tiene que ejecutarse, y eso también gasta. Esa parte invisible del coste se ha vuelto un factor de mercado, como analiza este artículo de revistacloud sobre el coste oculto detrás de cada prompt.

De ahí que los laboratorios estén invirtiendo en tres frentes paralelos: arquitecturas más eficientes (mixture of experts, modelos densos optimizados), distillation para entrenar modelos pequeños que imitan a los grandes y técnicas de cuantización que reducen la memoria necesaria sin perder demasiada calidad. La carrera no es solo por el modelo más capaz, sino por el más capaz por euro gastado en inferencia.

Otro frente abierto es el de los modelos chinos, con DeepSeek a la cabeza. La compañía ha reforzado su gobernanza tras presentar DeepSeek-V4, en lo que parece un movimiento previo a una ronda de financiación. Demuestra que el dominio del entrenamiento masivo ya no es exclusivo de Silicon Valley.

Aplicaciones reales: dónde se está usando ya

Más allá de chatbots, los modelos de machine learning están detrás de muchos servicios que usamos sin pensarlo:

  • Salud: detección de patologías en radiografías y resonancias, predicción de evolución clínica, descubrimiento de fármacos.
  • Banca y seguros: scoring de crédito, detección de fraude en pagos, tarificación dinámica.
  • Industria: mantenimiento predictivo de maquinaria, control de calidad por visión, optimización de cadenas de suministro.
  • Marketing y comercio: recomendadores de producto, segmentación de clientes, previsión de demanda.
  • Desarrollo de software: autocompletado de código, generación de tests, asistencia en revisión, como muestra el caso de Donald Knuth y su cambio de tono ante un hallazgo de Claude.

El patrón es siempre el mismo: hay datos, hay un objetivo medible y los métodos clásicos basados en reglas se quedan cortos. Cuando se cumplen las tres condiciones, un modelo bien entrenado suele superar a la heurística humana.

Limitaciones y problemas abiertos

Conviene no dejarse llevar por el entusiasmo. Los modelos actuales tienen agujeros importantes:

  • Alucinaciones: los LLM pueden inventarse hechos con la misma seguridad con la que dicen verdades. Verificar la salida sigue siendo responsabilidad del usuario.
  • Sesgos: si los datos de entrenamiento están sesgados, el modelo replica el sesgo. Hay sectores —crédito, recursos humanos, justicia— donde esto tiene consecuencias serias.
  • Coste energético: los grandes modelos consumen energía y agua para refrigeración. Algunos países ya están regulando dónde y cómo se construyen los datacenters de IA.
  • Visibilidad real: un estudio reciente de Ahrefs ha mostrado que solo la mitad de las páginas que rastrea ChatGPT acaban citadas, lo que abre preguntas sobre cómo deciden los modelos qué información usar.
  • Propiedad intelectual: los pleitos por uso de contenido protegido para entrenar modelos están aún sin resolver en buena parte del mundo.

Cómo elegir un modelo: tamaño no es lo único

Para una empresa que quiere incorporar machine learning, la pregunta no es «qué modelo es el más grande» sino qué problema concreto se quiere resolver y con qué presupuesto. Para clasificar facturas, un modelo tradicional bien entrenado puede salir más barato y rápido que un LLM. Para resumir contratos largos o atender consultas en lenguaje natural, conviene un LLM, pero no necesariamente el de más parámetros.

Las variables que pesan: latencia tolerable, coste por consulta, sensibilidad de los datos (lo que define si se puede usar API externa o hay que alojarlo en infraestructura propia), idioma y dominio específico. La práctica habitual es probar dos o tres opciones con un benchmark interno antes de decidir.

Preguntas frecuentes

¿Qué diferencia hay entre inteligencia artificial y machine learning?

La inteligencia artificial es el campo amplio que engloba cualquier técnica para que una máquina haga tareas que parecen requerir inteligencia. El machine learning es la rama de la IA en la que esas tareas se aprenden a partir de datos, en lugar de programarse con reglas explícitas. Todo machine learning es IA, pero no toda IA es machine learning.

¿Qué hace falta para entrenar un modelo de machine learning?

Tres ingredientes: datos suficientes y de calidad, capacidad de cálculo (CPU para modelos pequeños, GPU para los grandes) y un objetivo claro y medible. Sin un buen dataset y sin una métrica que defina qué es «acertar», el resto no sirve de nada.

¿Por qué se habla tanto de los parámetros de un modelo?

Los parámetros son los pesos numéricos que el modelo ajusta durante el entrenamiento. Más parámetros suelen significar más capacidad para capturar patrones complejos, pero también más coste de entrenamiento y más memoria para ejecutarlos. Hoy es habitual ver LLM de entre 7.000 millones y varios cientos de miles de millones de parámetros, según el caso de uso.

¿Pueden los modelos de machine learning explicar sus decisiones?

Solo en parte. Existen técnicas de explainability (SHAP, LIME, atribución por gradientes) que dan pistas sobre qué variables han pesado en una predicción, pero los grandes modelos siguen siendo cajas opacas en muchos aspectos. Es una limitación seria en sectores con regulación estricta.

¿Es peligroso depender de modelos cerrados como GPT-4 o Claude?

Depende del caso. Para un proyecto crítico, depender de una API externa que puede cambiar de precio, condiciones o disponibilidad es un riesgo real. La alternativa son los modelos open weights (Llama, Mistral, DeepSeek, Qwen) que se pueden alojar en infraestructura propia, aunque requieren más trabajo de operación. Cada vez es más común ver arquitecturas mixtas: modelo pequeño self-hosted para lo cotidiano y API externa solo para tareas que justifican el coste.

Scroll al inicio