Datos empresariales y ChatGPT: la lección del caso Samsung

El caso Samsung: cómo tres empleados filtraron código propietario

En abril de 2023, Samsung descubrió por las malas lo que ocurre cuando una empresa deja usar ChatGPT libremente entre su plantilla. Tres empleados introdujeron código fuente propietario en el chat de OpenAI: uno para depurar errores de software, otro para resumir notas de una reunión interna y un tercero para resolver un problema con la base de datos corporativa. Ese código ya no pertenece exclusivamente a Samsung.

La compañía reaccionó rápido y prohibió el uso de ChatGPT internamente. Pero el daño estaba hecho: la información propietaria había llegado a los servidores de OpenAI y, según los términos de uso del servicio consumer, la empresa puede revisarla y usarla para mejorar sus modelos. No es un robo en sentido legal, sino lo que los empleados aceptaron sin leerlo.

Qué pasa técnicamente cuando introduces datos en ChatGPT

ChatGPT y DALL-E son proyectos de investigación de OpenAI, no herramientas corporativas con garantías de privacidad empresarial. Los términos de servicio lo recogen sin ambigüedad: cuando usas la versión consumer (gratuita o de suscripción mensual), OpenAI se reserva el derecho de examinar las conversaciones y usarlas para mejorar sus modelos. El personal humano de la empresa también puede acceder al contenido en determinadas circunstancias, algo que OpenAI reconoce en su política de privacidad.

Esto vale para cualquier tipo de texto, no solo para el código. Si introduces el borrador de un contrato, datos financieros de un cliente, notas de una reunión de dirección o los detalles de una estrategia comercial, estás entregando esa información a un tercero. Que GPT-4 sea útil no cambia la política de datos.

La diferencia que toda empresa debería conocer: API vs. ChatGPT consumer

La API de OpenAI funciona bajo una política de privacidad diferente a la del producto consumer. OpenAI no usa los datos enviados por API para entrenar sus modelos, salvo que el cliente lo autorice de forma explícita. Es el mismo modelo de lenguaje, pero las condiciones contractuales son radicalmente distintas.

La API tiene coste por tokens, pero para la mayoría de casos de uso empresarial el gasto mensual es manejable. Lo importante es que el equipo técnico puede controlar exactamente qué datos salen y en qué formato, algo imposible con la versión consumer.

Tres opciones para proteger los datos internos

  • Usar la API de OpenAI en lugar de ChatGPT consumer: los datos enviados por API no se usan para entrenamiento. Es la opción más directa para equipos técnicos que quieran integrar IA en flujos de trabajo internos sin comprometer información confidencial.
  • Desactivar el historial de conversaciones en ChatGPT: desde la configuración de la cuenta se puede excluir las conversaciones del entrenamiento. No elimina completamente el acceso de OpenAI a los datos, pero reduce la exposición.
  • Desplegar Azure OpenAI Service: Microsoft ofrece acceso a los modelos de OpenAI desde su infraestructura cloud con garantías de privacidad enterprise y cumplimiento normativo. Los datos no salen del entorno controlado por la empresa. Es la opción recomendada para sectores regulados como salud, finanzas o defensa.

Para equipos que usan IA de forma intensiva, también merece la pena revisar modelos desplegados en local (Llama, Mistral) o soluciones de IA corporativa que garantizan por contrato que los datos no salen de la infraestructura propia. El mercado ha cambiado mucho: hoy hay más opciones para integrar inferencia de IA en entornos empresariales con políticas de privacidad claras.

Empresas como Anthropic están diseñando sus ofertas específicamente para el segmento corporativo. La alianza de Anthropic con Blackstone y Goldman Sachs para desplegar Claude en empresas medianas ilustra cómo el sector está respondiendo a la demanda de privacidad y control de datos.

Preguntas frecuentes sobre privacidad en ChatGPT

¿OpenAI roba la propiedad intelectual de sus usuarios?

No en sentido legal. Los términos de servicio de ChatGPT consumer permiten a OpenAI revisar y usar las conversaciones para mejorar sus modelos. Al aceptar esas condiciones, el usuario otorga ese derecho. No hay robo, pero sí una cesión de datos que muchas empresas hacen sin saberlo.

¿Qué información es más arriesgada de meter en ChatGPT?

Código fuente propietario, datos de clientes protegidos por el RGPD, estrategias comerciales, documentos financieros internos, contratos sin firmar y cualquier información que la empresa clasifique como confidencial.

¿La API de OpenAI es segura para datos empresariales?

Más que la versión consumer, sí. OpenAI no usa los datos de la API para entrenar modelos salvo autorización expresa. Aun así, los datos viajan a los servidores de OpenAI, por lo que empresas con requisitos de cumplimiento estrictos deberían evaluar Azure OpenAI Service o soluciones on-premise.

¿Puedo impedir que OpenAI use mis conversaciones para entrenamiento?

Sí: en la configuración de tu cuenta de ChatGPT puedes desactivar el historial. Con esa opción activa, OpenAI no usará esas conversaciones para entrenar. Los datos siguen pasando por sus servidores, pero no entran en el ciclo de mejora del modelo.

¿Qué es Azure OpenAI Service y por qué lo usan las empresas?

Es una versión de los modelos de OpenAI (GPT-4, GPT-3.5 Turbo, DALL-E) alojada en la infraestructura cloud de Microsoft. A diferencia de la API directa, ofrece acuerdos de nivel de servicio enterprise, cumplimiento de normativas como el RGPD e ISO 27001, y la garantía de que los datos no se usan para entrenar modelos ni se comparten con OpenAI salvo para operar el servicio.

Scroll al inicio