IA y violencia de género: el modelo predictivo de la UOC

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Un trabajo de fin de máster en Ciencia de Datos de la Universitat Oberta de Catalunya (UOC) planteó el uso de inteligencia artificial para anticipar casos de violencia de género en España. La propuesta, firmada por Javier Plo Moreno bajo la tutoría de Laia Subirats, profesora colaboradora de los Estudios de Informática, Multimedia y Telecomunicación de la UOC, busca cruzar variables sociales, sanitarias y judiciales para identificar perfiles de riesgo, tanto de posibles agresores como de víctimas.

«La IA puede detectar potenciales riesgos de violencia de género a partir de situaciones similares en casos pasados», resume Subirats, que coordina además el grupo Applied Data Science Lab de la UOC. La idea no es sustituir el criterio policial o judicial, sino sumar señales que ahora se analizan por separado y permitir una toma de decisiones mejor informada.

Cómo se construyen los perfiles

El sistema parte de un concepto clave: el perfil. Plo Moreno lo define como un conjunto de atributos o características que, según la sociología, la psicología y la psiquiatría, pueden incrementar la probabilidad de que alguien acabe siendo agresor o víctima en un momento dado. La lista de variables es larga y combina información que hoy no suele cruzarse:

Exposición a abusos en la infancia.
Nivel cultural y formativo.
Tratamiento psicológico o psiquiátrico previo.
Medidas de alejamiento dictadas.
Régimen de custodia de los hijos.
Problemas económicos sostenidos.
Publicación de contenidos sexistas en redes sociales.
Adicciones documentadas.
Atestados policiales y antecedentes.

Con esos datos, el sistema entrena modelos de aprendizaje automático que estiman el riesgo de cada perfil. La aplicación práctica que sugieren los autores es doble: reforzar la concienciación y la atención psicológica en zonas con más perfiles de riesgo, y ajustar la presencia de los cuerpos de seguridad allí donde el modelo señale una probabilidad mayor.

Lenguaje sexista en redes sociales

Una de las fuentes de datos más interesantes son las redes sociales. Subirats explica que el procesamiento del lenguaje natural (PLN) permite identificar y clasificar mensajes sexistas, así como detectar discursos de odio mediante técnicas de aprendizaje automático. A esto se suman algoritmos como Latent Dirichlet Allocation (LDA), que extraen los temas dominantes de grandes volúmenes de texto y permiten ver qué discursos predominan en una zona o comunidad concreta.

El equipo de la UOC ya tiene experiencia en este terreno. Sus investigadores han mostrado, por ejemplo, que ChatGPT cambia de personalidad según el idioma en el que se le hable, lo que da una idea de hasta qué punto el sesgo cultural se cuela en los modelos de lenguaje. En un sistema pensado para detectar perfiles violentos, ese tipo de sesgo no es un detalle menor.

Por qué importa el contexto: las cifras de violencia de género

Cuando Plo Moreno presentó el trabajo, los últimos datos del INE eran los de 2021: las víctimas de violencia de género habían subido un 3,2 % en un año, con una tasa de 1,4 víctimas por cada 1.000 mujeres mayores de 14 años. La intención del proyecto era ofrecer una herramienta más a las administraciones para revertir esa tendencia, no sustituir las políticas públicas existentes.

Hasta ese momento, el análisis de datos aplicado a la violencia machista se había usado sobre todo para tres cosas: predicciones numéricas de la evolución de los casos, análisis de términos relacionados con la violencia de género en redes y ajustes en sistemas predictivos ya existentes en ámbitos muy concretos. La propuesta titulada «Arquitectura de un sistema de ayuda a la prevención de casos de violencia de género en España» introduce algo nuevo: vincular perfiles de posibles agresores y víctimas con antelación, no a posteriori.

El gran problema: sesgos y marco legal

Subirats es la primera en señalar la pega: la principal dificultad técnica del sistema es evitar que los datos y los algoritmos hereden sesgos de la sociedad que los genera. Un modelo entrenado con denuncias y atestados puede reflejar más el patrón geográfico de las denuncias que la realidad de la violencia, y discriminar barrios o colectivos por motivos que nada tienen que ver con el riesgo real. Es uno de los riesgos que aborda la nueva ley de gobernanza de la IA en España, alineada con el reglamento europeo.

El otro frente es legal. Para que el sistema funcione hace falta acceder a información personal sensible y obligar a las redes sociales a compartir señales útiles para la detección. Plo Moreno apunta directamente a este vacío: sin una norma específica que habilite ese uso, el modelo se queda en el laboratorio. El Reglamento Europeo de IA clasifica este tipo de aplicaciones como sistemas de alto riesgo, lo que añade obligaciones concretas en transparencia, supervisión humana y documentación técnica.

A esto se suma un debate más amplio sobre la fiabilidad de los modelos. Solo el 40 % de las organizaciones que usan IA generativa invierte de verdad en hacerla confiable, según un estudio de SAS e IDC. Llevar este tipo de sistemas a un terreno tan delicado como la violencia de género exige justo lo contrario: garantías de auditoría, datos de calidad y revisión humana en cada decisión.

Una idea de fondo: nadie nace violento

Más allá de la parte técnica, el trabajo deja una idea que conviene no perder de vista. «Nadie nace siendo agresor o víctima», recuerda Plo Moreno. Los atributos que el modelo busca identificar son sucesos que pueden cruzarse en la vida de cualquiera, y la finalidad del sistema, según los autores, no es etiquetar personas, sino entender qué procesos llevan a alguien a la violencia y dónde conviene intervenir antes de que sea tarde.

Preguntas frecuentes

¿Quién está detrás de esta investigación?

El trabajo de fin de máster lo firma Javier Plo Moreno, alumno del máster en Ciencia de Datos de la UOC, bajo la tutoría de Laia Subirats, profesora colaboradora de los Estudios de Informática, Multimedia y Telecomunicación y miembro del Applied Data Science Lab de la UOC.

¿Qué variables usa el sistema?

Combina datos sociales, sanitarios y judiciales: exposición a abusos en la infancia, nivel cultural, tratamiento psicológico, medidas de alejamiento, custodia de hijos, problemas económicos, contenidos sexistas en redes, adicciones y atestados policiales.

¿Cómo se aplican el aprendizaje automático y el PLN?

Los modelos de aprendizaje automático estiman el riesgo a partir de las variables del perfil, mientras que el procesamiento del lenguaje natural y técnicas como Latent Dirichlet Allocation (LDA) extraen temas y detectan sexismo y discurso de odio en textos publicados en redes sociales.

¿Cuál es el principal riesgo técnico?

El sesgo. Si los datos reflejan más el patrón de denuncias que la violencia real, el modelo puede penalizar a colectivos o territorios concretos sin justificación. Por eso los autores insisten en auditorías y revisión humana de los resultados.

¿Está el sistema en marcha?

No. La propuesta describe una arquitectura, pero su despliegue depende de un marco legal que permita acceder a datos personales sensibles y obligue a las plataformas a colaborar. Sin ese paso, la idea se queda en el plano académico.

Basado en información de la UOC.