Más del 60% de las respuestas del modelo GPT-3.5 de OpenAI contienen plagio

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Un reciente estudio realizado por la empresa especializada en detección de plagio Copyleaks ha revelado una inquietante realidad sobre el modelo de lenguaje GPT-3.5 de OpenAI. Según el informe, más del 60% de las respuestas generadas por este modelo de inteligencia artificial incluyen algún tipo de plagio.

Este descubrimiento cobra especial relevancia en un momento en el que los creadores de contenido, desde autores hasta medios de comunicación como The New York Times, están desafiando en los tribunales el uso de sistemas de IA generativa que procesan material protegido por derechos de autor, produciendo en ocasiones copias idénticas.

Copyleaks, una compañía especializada en el análisis de texto y la detección de plagio mediante inteligencia artificial, analizó miles de respuestas generadas por el modelo GPT-3.5 de OpenAI. Los resultados son alarmantes: el 45.7% de las salidas contenían texto idéntico, el 27.4% presentaba cambios menores y el 46.5% tenía texto parafraseado.

Según el informe de Copyleaks, un «puntaje de similitud» del 0% indica que todo el contenido es original, mientras que un puntaje del 100% significa que ninguna parte del texto es original. En el caso del modelo GPT-3.5 de OpenAI, se encontraron puntajes de similitud extremadamente altos en áreas como ciencias de la computación (100%), física (92%) y psicología (88%), lo que sugiere un alto grado de plagio.

Por el contrario, los puntajes más bajos se registraron en campos como teatro (0.9%), humanidades (2.8%) y lengua inglesa (5.4%), lo que podría indicar que el modelo tiene más dificultades para generar contenido original en estas áreas.

En respuesta a estos hallazgos, OpenAI ha defendido sus modelos argumentando que están diseñados para aprender conceptos y resolver problemas nuevos, y que cuentan con medidas para limitar la memorización inadvertida de contenido. Sin embargo, la empresa reconoce que la «regurgitación» de texto puede ser un «error raro» en sus sistemas.

Este debate cobra especial relevancia en un momento en el que la IA generativa está ganando cada vez más protagonismo, con aplicaciones como ChatGPT que han captado la atención del público. La cuestión del plagio y el uso de material con derechos de autor en estos sistemas será sin duda un tema central en los próximos años, con implicaciones legales y éticas que deberán ser abordadas.

vía: AXIOS