Cómo los cibercriminales usan ChatGPT y GPT-4 en sus ataques

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

El lanzamiento de GPT-4 por OpenAI en marzo de 2023 reavivó el debate sobre cómo los modelos de lenguaje grande (LLM) pueden usarse en ciberataques. El riesgo no es teórico: herramientas como ChatGPT permiten a personas con pocos conocimientos técnicos redactar correos de phishing convincentes, generar mensajes de voz falsos o producir código que automatiza partes de un ataque. El salto cualitativo respecto a generaciones anteriores de herramientas de IA es lo que ha puesto en alerta a los equipos de seguridad.

Qué pueden hacer los atacantes con ChatGPT

Los usos más documentados de ChatGPT en ciberataques se concentran en tres áreas:

Phishing más creible: ChatGPT puede redactar mensajes que imitan el estilo de una empresa, un banco o un empleado concreto, con mucho menos esfuerzo que antes. El resultado son correos que pasan los filtros lingüísticos y que generan una tasa de clics mayor.
Generación de código malicioso: Aunque ChatGPT rechaza peticiones explícitas de código malware, las técnicas de jailbreak y el desglose de la petición en pasos inocentes permiten obtener fragmentos funcionales. La barrera de entrada para escribir scripts de ataque ha bajado considerablemente.
Ingeniería social a escala: Los LLM permiten personalizar mensajes de engaño para miles de objetivos a la vez, algo que antes requería equipos de personas. Eso aumenta el volumen de ataques posibles con el mismo recurso.

Manuel Acosta, director general de Hillstone Networks México, matiza un punto importante: que un ataque se desarrolle con ayuda de ChatGPT no significa que sea indetectable. «La responsabilidad de utilizar la herramienta de manera ética y legal recae en los usuarios y desarrolladores», señala. El código generado por IA sigue siendo código: sus comportamientos son análizables y sus patrones, detectables.

Los límites propios de ChatGPT como arma

ChatGPT advierte al usuario cuando detecta una petición que puede ser dañina o ilegal, y rechaza muchas peticiones directas de código malicioso. OpenAI añade filtros en cada actualización del modelo. Aun así, los investigadores de seguridad han documentado que las técnicas de jailbreak pueden eludir esos filtros de forma consistente en versiones iniciales de cada modelo. La carrera entre los filtros de OpenAI y las técnicas para saltarselos es continua. Este debate encaja en el contexto más amplio de los riesgos que expertos como Geoffrey Hinton señalaron al dejar Google ese mismo mes: la capacidad de la IA de ser instrumentalizada por actores maliciosos.

Cómo responden las herramientas de ciberseguridad

Las plataformas de detección y respuesta extendida (XDR) pueden identificar comportamientos anómalos independientemente de cómo se haya generado el código del ataque. Hillstone Networks, por ejemplo, ofrece iSource XDR, que basa su detección en análisis de comportamiento y no sólo en firmas conocidas, lo que le permite identificar amenazas nuevas aunque no hayan sido vistas antes.

La visibilidad de red, la inteligencia de amenazas y la capacidad de investigar incidentes de forma automática son los tres componentes que los equipos de seguridad deben priorizar para hacer frente a ataques que evolucionan con ayuda de IA. El enfoque de detección basada en comportamiento es especialmente relevante cuando el vector de ataque cambia con cada generación de modelo.

Preguntas frecuentes

¿Puede ChatGPT escribir malware directamente?

ChatGPT rechaza la mayoría de peticiones directas de código malicioso. Los atacantes usan técnicas de jailbreak y fragmentan la petición para eludir los filtros, obteniendo fragmentos de código que luego ensamblan. La barrera existe, pero no es infranqueable.

¿El malware generado por IA es más difícil de detectar?

No necesariamente. El código generado por LLM sigue comportamientos análizables. Las herramientas de detección basadas en comportamiento (XDR) pueden identificar patrones maliciosos independientemente de cómo se haya escrito el código.

¿Qué tipos de ataque son más fáciles de hacer con ChatGPT?

Los ataques de ingeniería social y phishing son los que más se benefician de la IA: permiten personalizar mensajes masivos con muy poco esfuerzo. La generación de código malicioso es posible pero requiere más trabajo por parte del atacante para eludir los filtros del modelo.

¿Qué deben hacer las empresas para protegerse?

Los expertos recomiendan priorizar la detección por comportamiento sobre la basada en firmas, mejorar la visibilidad de red para identificar movimientos laterales, y formar a los empleados para reconocer mensajes de phishing más elaborados que los habituales hasta 2022.