Los 10 errores comunes sobre machine learning y privacidad

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

La Agencia Española de Protección de Datos (AEPD) y el Supervisor Europeo de Protección de Datos (EDPS) publicaron un documento conjunto que repasa los 10 malentendidos más comunes sobre el machine learning (aprendizaje automático) y plantean cuál debería ser el enfoque correcto cuando estos sistemas tratan datos personales. La idea no es frenar la IA, sino encajarla con el RGPD y con los derechos de las personas a las que afecta.

El texto está pensado para responsables de tratamiento, delegados de protección de datos (DPD) y equipos de desarrollo que despliegan modelos en producción. Lo que sigue es un repaso a esos diez puntos, ordenados como aparecen en el documento original, con el matiz que aportan los dos supervisores.

Por qué la AEPD y el EDPS publican esta guía

El machine learning lleva años usándose para evaluar candidatos a un puesto, calcular el riesgo de impago, detectar fraude o priorizar urgencias en un hospital. Cada uno de esos casos implica datos personales, decisiones que afectan a personas y, casi siempre, sesgos heredados de los datos de entrenamiento. La AEPD y el EDPS detectan que muchas de las dudas que llegan a las autoridades parten de las mismas ideas equivocadas, y por eso decidieron aclararlas en un mismo documento.

El enfoque del documento no es académico. Va al grano: explica qué se cree habitualmente, por qué eso es incorrecto y qué implica desde el punto de vista de protección de datos. Encaja con el espíritu de la regulación europea sobre IA y con la línea de trabajo más reciente de la propia AEPD, que también ha publicado una guía sobre datos sintéticos para entrenar modelos.

Los 10 errores más frecuentes sobre machine learning

1. «Machine learning es lo mismo que inteligencia artificial»

Se usan como sinónimos, pero no lo son. La inteligencia artificial es el campo amplio que cubre desde reglas expertas hasta visión por computador. El machine learning es una rama dentro de ese campo que aprende patrones a partir de datos. Confundir ambos términos hace que se aplique el mismo análisis de riesgo a cosas muy distintas, cuando lo prudente es valorar cada técnica por separado.

2. «Los modelos aprenden solos, sin intervención humana»

Detrás de cualquier sistema de machine learning hay personas que eligen los datos, etiquetan ejemplos, fijan métricas y deciden qué se considera un acierto. Esa cadena de decisiones humanas es la que define el comportamiento del modelo. Por eso el RGPD insiste en la responsabilidad del responsable de tratamiento: no vale escudarse en que «lo decide el algoritmo».

3. «Si los datos son objetivos, el modelo también lo es»

Los datos no caen del cielo. Reflejan el contexto donde se recogieron, con sus desigualdades y sus huecos. Un modelo entrenado con histórico de contrataciones puede heredar el sesgo de género de esa empresa, igual que un sistema de scoring puede penalizar barrios enteros. La AEPD recuerda que evaluar el sesgo es una obligación, no una buena práctica.

4. «Cuantos más datos, mejor»

El principio de minimización de datos del RGPD choca de frente con esta idea. Acumular información personal no garantiza un modelo más preciso: a menudo introduce ruido, multiplica los riesgos de fuga y obliga a justificar tratamientos que no aportan nada al resultado. Lo correcto es seleccionar qué datos son estrictamente necesarios y descartar el resto.

5. «El modelo siempre puede explicar su decisión»

Algunas técnicas (árboles de decisión, regresiones) son razonablemente explicables. Otras, como las redes neuronales profundas, son cajas negras que ofrecen aproximaciones, no explicaciones reales. El artículo 22 del RGPD reconoce a la persona afectada el derecho a información significativa sobre la lógica aplicada, así que conviene elegir la técnica pensando también en eso, no solo en la métrica.

6. «Una vez entrenado, el modelo se queda como está»

Los datos del mundo real cambian, y un modelo que dejó de actualizarse acaba prediciendo sobre una realidad que ya no existe. Es lo que se conoce como data drift. La AEPD y el EDPS recuerdan que mantener un sistema en producción exige monitorización continua, reentrenamiento periódico y trazabilidad de los cambios.

7. «Anonimizar los datos resuelve el problema de privacidad»

Quitar el nombre y el DNI no convierte un fichero en anónimo. Combinando códigos postales, fechas y patrones de uso es posible reidentificar a una persona con relativa facilidad. La anonimización real exige técnicas formales (k-anonimato, privacidad diferencial, datos sintéticos) y una evaluación honesta del riesgo de reidentificación.

8. «El machine learning solo se aplica a casos sofisticados»

Hoy hay modelos en aplicaciones del móvil, en chatbots de atención al cliente, en correos electrónicos corporativos y en plataformas educativas. Tratar este tipo de despliegues como algo experimental lleva a saltarse análisis de impacto, evaluaciones de riesgos y la información básica que toca dar al usuario.

9. «El modelo decide mejor que las personas»

Hay tareas donde un modelo bien entrenado supera al humano (visión médica en pruebas concretas, detección de fraude en tiempo real). Y hay otras donde la complejidad social, ética o jurídica exige criterio humano. El documento subraya que delegar decisiones en automático sin supervisión choca con el artículo 22 del RGPD y con el principio de proporcionalidad.

10. «La protección de datos frena la innovación en IA»

Es probablemente el malentendido más extendido. La AEPD y el EDPS lo desmontan al final del documento: el RGPD obliga a pensar la privacidad desde el diseño, lo que se traduce en sistemas más auditables, más fiables y, a la larga, con menor riesgo regulatorio. La ley española de gobernanza de IA y el Reglamento europeo de IA (AI Act) van en esa misma línea.

Cómo encajan estos errores con el AI Act

El AI Act europeo y la normativa de protección de datos comparten objetivo: que los sistemas de IA sean explicables, supervisables y proporcionados al riesgo. Quien tenga un modelo de scoring, un clasificador de currículums o una herramienta de IA generativa va a encontrarse con obligaciones cruzadas: análisis de riesgos, registros de actividad, derechos de la persona afectada y, en muchos casos, supervisión humana documentada. La discusión sobre soberanía digital y dependencia de proveedores cloud, que también recoge RevistaCloud al analizar el AI Act y la cadena de valor europea, completa el cuadro: regular bien no basta si la infraestructura sigue fuera del continente.

Documento completo de la AEPD-EDPS

10-malentendidos-machinelearning-es-noticias-ai Descarga

Preguntas frecuentes

¿En qué se diferencia machine learning de inteligencia artificial?

La IA es el campo general que agrupa cualquier sistema que imite tareas cognitivas humanas (reglas expertas, planificación, visión, lenguaje natural). El machine learning es una rama dentro de la IA que aprende patrones a partir de datos en lugar de seguir reglas escritas a mano. Todos los modelos de machine learning son IA, pero no toda la IA usa machine learning.

¿Anonimizar datos personales es suficiente para entrenar un modelo?

No siempre. Eliminar identificadores directos no garantiza que la persona no sea reidentificable cruzando los datos restantes con otras fuentes. La AEPD recomienda combinar técnicas formales (k-anonimato, privacidad diferencial o datos sintéticos) y hacer una evaluación de riesgo de reidentificación antes de considerar un dataset realmente anónimo.

¿Qué dice el RGPD sobre las decisiones automatizadas?

El artículo 22 del RGPD reconoce el derecho a no ser objeto de decisiones basadas únicamente en tratamiento automatizado cuando produzcan efectos jurídicos o significativos. Hay excepciones (consentimiento explícito, contrato, ley) y, en cualquier caso, la persona afectada tiene derecho a información significativa sobre la lógica del sistema y a solicitar intervención humana.

¿Cuándo hay que hacer una evaluación de impacto en protección de datos?

Siempre que el tratamiento implique alto riesgo para los derechos y libertades de las personas: scoring crediticio, perfiles laborales, vigilancia sistemática a gran escala, datos de menores o categorías especiales. Para sistemas de machine learning con esas características, la evaluación de impacto (EIPD) es obligatoria antes del despliegue.

¿Dónde se puede consultar el documento original?

El PDF está disponible al inicio y final de este artículo. La versión inglesa la mantiene el EDPS en su web institucional, dentro de su serie de notas conjuntas con autoridades nacionales sobre IA y datos personales.