La AEPD publica en español la guía de Singapur sobre generación de datos sintéticos para IA

Madrid, 22 de abril de 2025 — La Agencia Española de Protección de Datos (AEPD) ha hecho pública la traducción al castellano de la Guía sobre la generación de datos sintéticos, un documento de carácter técnico y divulgativo elaborado originalmente por la Autoridad de Protección de Datos Personales de Singapur (PDPC). Esta iniciativa se enmarca en el acuerdo de colaboración entre ambas entidades, con el objetivo de facilitar recursos útiles a responsables, encargados de tratamientos y delegados de protección de datos.

La guía, publicada inicialmente en julio de 2024 por la PDPC, aborda en profundidad el papel crucial que juegan los datos sintéticos en el desarrollo de sistemas y modelos de Inteligencia Artificial (IA), así como en la protección de la privacidad de los individuos. Esta herramienta se presenta como un instrumento clave para mitigar riesgos de reidentificación y permitir el uso ético de datos, especialmente en sectores sensibles como la salud, las finanzas o el desarrollo de software.

¿Qué son los datos sintéticos y para qué sirven?

Los datos sintéticos son datos generados artificialmente mediante algoritmos o modelos de aprendizaje automático que simulan las propiedades estadísticas de datos reales. A diferencia de los conjuntos de datos anonimizados tradicionales, los sintéticos buscan preservar la utilidad para el análisis sin revelar información personal directa.

Tal como se recoge en la guía, su utilidad abarca desde la generación de conjuntos de entrenamiento para IA/ML, hasta el análisis colaborativo de datos o pruebas de software sin exponer datos reales. Entre los casos de uso destacados se encuentran los ejemplos de J.P. Morgan, Mastercard, Johnson & Johnson y A*STAR, todos ellos centrados en demostrar la eficacia de los datos sintéticos en escenarios reales, desde la detección de fraude hasta la colaboración entre entidades en entornos regulados.

Un enfoque práctico y técnico

La publicación se estructura en torno a un enfoque metodológico de cinco pasos para generar datos sintéticos de manera segura y eficaz: conocer los datos, prepararlos, generar los sintéticos, evaluar el riesgo de reidentificación y gestionar los riesgos residuales. Este marco técnico incluye prácticas como la eliminación de valores atípicos, la adición de ruido, el uso de métricas como la exactitud o la puntuación F1, y la evaluación de ataques de inferencia y vinculabilidad.

Además, se detallan distintas tecnologías de generación, desde redes bayesianas y cópulas condicionales hasta modelos generativos adversarios (GAN) o grandes modelos de lenguaje (LLM). Cada una presenta ventajas y retos en cuanto a escalabilidad, privacidad y fidelidad estadística.

Importancia para la innovación y la protección de derechos

La AEPD subraya que esta guía no sustituye el cumplimiento del Reglamento General de Protección de Datos (RGPD), pero aporta una perspectiva útil desde el enfoque de la innovación tecnológica. Aporta también un catálogo de buenas prácticas y control de riesgos que las organizaciones pueden adaptar según el contexto normativo europeo, especialmente en lo referido a evaluaciones de impacto, minimización de datos o uso contractual de información sintética.

Con esta publicación, disponible en la sección de Innovación y Tecnología del sitio web de la AEPD, la Agencia refuerza su compromiso con el fomento de una cultura proactiva de protección de datos en la era de la Inteligencia Artificial.

La versión original de la guía está disponible en inglés en el sitio web de la PDPC de Singapur y puede consultarse junto a otros recursos técnicos y divulgativos de interés para profesionales del ámbito de la privacidad y la innovación tecnológica.

🔗 Descargar guía completa en PDF desde la web de la AEPD

Scroll al inicio