Preocupación para la seguridad de la información sensible en ChatGPT y otros LLM

Investigadores de la Universidad de Carolina del Norte han arrojado nueva luz sobre los desafíos asociados con la eliminación de datos confidenciales de los grandes modelos de lenguaje (LLM), como ChatGPT de OpenAI y Bard de Google.

¿Qué es un LLM y por qué es importante protegerlo?

Los LLM son modelos de inteligencia artificial (IA) diseñados para procesar y generar lenguaje natural. Debido a la manera en que son entrenados, se convierte en un desafío monumental asegurarse de que los datos que los alimentan puedan ser eliminados o «olvidados» completamente. En el núcleo de este problema se encuentra la «caja negra» de la IA: una vez que un LLM es entrenado, los datos integrados en el modelo se distribuyen entre innumerables parámetros, lo que hace casi imposible identificar y eliminar datos específicos.

El riesgo de la información confidencial

La preocupación central de la investigación es que, a pesar de los esfuerzos por entrenar a los modelos para que no revelen información confidencial, los LLM, en ciertas circunstancias, aún pueden emitir datos sensibles. Esto es alarmante especialmente cuando se considera que estos modelos pueden haber sido entrenados con información personal, registros financieros y otros datos delicados.

Para combatir estos riesgos, los desarrolladores de IA han recurrido a técnicas como el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). Sin embargo, esta técnica se basa en la capacidad humana para detectar fallos, y aunque puede restringir ciertos comportamientos del modelo, no garantiza la eliminación de datos sensibles.

Los hallazgos más recientes

Lo que es aún más preocupante es que, según la investigación de la UNC, incluso con técnicas avanzadas de edición de modelos, la eliminación completa de datos es prácticamente inalcanzable. En pruebas realizadas con el modelo GPT-J, que es significativamente más pequeño que modelos como GPT-3.5, se descubrió que la información aún podía ser extraída en un porcentaje considerable de intentos.

Hacia el futuro

Si bien los investigadores pudieron desarrollar nuevas defensas contra algunos intentos de extracción de datos, concluyeron que la batalla entre las técnicas de defensa y ataque es continua. El mundo de la IA, en su constante evolución, tendrá que enfrentarse y adaptarse a estos desafíos emergentes, especialmente cuando se trata de proteger la privacidad y la seguridad de la información.

Scroll al inicio