¿Hay alternativas open source a ChatGPT para OSINT?

Sí. Modelos como Llama 3, Mistral o Qwen se despliegan en local con Ollama o LM Studio. Tienen menos potencia que los modelos de frontera, pero permiten trabajar con datos sensibles sin enviarlos a un servicio externo.

Seguridad
06/03/2023

Cómo usar ChatGPT para OSINT: 103 prompts y casos reales

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

El OSINT (Open Source Intelligence o inteligencia de fuentes abiertas) consiste en buscar, cruzar y analizar información pública para construir un perfil de una persona, empresa o evento. ChatGPT, como modelo de lenguaje grande, no descubre datos secretos por arte de magia, pero sí acelera la parte aburrida del trabajo: leer cantidades enormes de texto, ordenar resultados y generar variaciones de búsqueda que cuesta horas redactar a mano.

El interés por combinar OSINT y modelos de lenguaje no es nuevo, pero saltó a un primer plano cuando ChatGPT abrió la puerta a flujos conversacionales sobre miles de tokens de contexto. Hoy lo usan equipos de fraude bancario, periodistas de investigación, departamentos de compliance y cazadores de amenazas. La pregunta deja de ser si funciona y pasa a ser cómo se monta un proceso fiable y trazable.

Qué aporta un LLM a un flujo OSINT

Un analista OSINT clásico depende de una caja de herramientas conocida: dorks de Google, Maltego, Shodan, archivos públicos, registros mercantiles, redes sociales. ChatGPT no sustituye nada de eso, pero se cuela en cuatro puntos del flujo donde cuesta más mantener la atención.

Generar consultas: redactar variantes de búsqueda en varios idiomas, con sinónimos y operadores avanzados, sin tener que recordar la sintaxis exacta de cada motor.
Resumir grandes bloques de texto: reducir comunicados, sentencias o whitepapers de 80 páginas a un brief de hechos verificables.
Extraer entidades: sacar nombres, empresas, fechas, lugares, identificadores fiscales o cuentas asociadas de un texto plano sin escribir un parser.
Comparar y cruzar: contrastar dos versiones de una biografía, dos comunicados o dos perfiles de redes para detectar contradicciones o cambios silenciosos.

Lo que el modelo no hace es comprobar fuentes en tiempo real ni garantizar que un dato sea correcto. Cualquier afirmación que suelte hay que cotejarla con la fuente original antes de meterla en un informe. Esa parte sigue siendo trabajo humano y no negociable.

Casos prácticos donde ChatGPT acelera el OSINT

Las categorías que más se repiten en flujos reales son cinco. No son las únicas, pero cubren la mayoría del trabajo diario.

Investigación de personas: redactar consultas para localizar perfiles públicos en LinkedIn, GitHub, Stack Overflow o foros sectoriales a partir de un alias, un correo o un patrón de nombre.
Investigación corporativa: rastrear filiales, accionistas, registros mercantiles, antiguos directivos o cambios societarios cuando se dispone de un nombre o un CIF.
Geolocalización: proponer hipótesis sobre dónde puede estar una foto a partir de detalles visuales descritos en texto (señalética, idioma de los carteles, vegetación, tipo de edificación).
Análisis de dominios: examinar metadatos de un sitio, encadenar consultas WHOIS o DNS y comparar registros históricos para detectar rotaciones sospechosas.
Ingeniería social defensiva: simular el tipo de información que un atacante podría reunir sobre un empleado o una empresa para preparar entrenamientos de concienciación o ejercicios red team.

En todos estos casos el patrón es el mismo: el analista pide a ChatGPT consultas o estructuras de búsqueda, las ejecuta en herramientas reales y vuelve al chat con los resultados para resumir, contrastar o redactar el informe final. El modelo no tiene acceso a internet por sí mismo en muchas instalaciones empresariales, así que actúa como un copiloto que escribe y razona sobre lo que el analista trae.

El reverso oscuro: doble uso

La misma palanca que usa el analista la puede usar quien va con malas intenciones. Recopilar información pública es legal, pero si se cruza con técnicas de phishing dirigido o suplantación, la frontera se cruza rápido. Proofpoint y otras empresas de ciberseguridad llevan meses alertando de campañas que combinan datos OSINT con modelos de lenguaje para escribir correos de spear phishing en español casi perfecto, ajustados al cargo del destinatario y al tono interno de su empresa. Sobre este punto profundizamos en el análisis de los nuevos riesgos de ciberseguridad asociados a los LLM.

El siguiente escalón ya no es solo texto. Quien combina OSINT con voz clonada o vídeo sintético entra en territorio de fraude grave. Hemos visto casos en los que un atacante reúne datos públicos del entorno familiar de la víctima y los mete en un guion de llamada con voz clonada, como contamos en este reportaje sobre cómo usan llamadas falsas para clonar la voz con IA y robar la identidad. La defensa pasa por procedimientos internos de verificación, no por confiar en el oído.

103 ideas de prompts para OSINT con ChatGPT

Una de las recopilaciones más útiles de prompts para OSINT la firma Jan Černý, que publicó en LinkedIn una lista con 103 ideas distintas. Cubren reconocimiento de personas, análisis de empresas, perfiles de redes, búsquedas geográficas y un puñado de plantillas para redactar informes finales. Es un buen punto de partida si nunca has usado un LLM dentro de un flujo OSINT, sobre todo porque obliga a pensar la consulta antes de soltarla.

103-osint-chatgpt-prompt-ideas Descarga

Recomendaciones antes de pasar al teclado

Verifica todo lo que el modelo afirme: ChatGPT alucina nombres, fechas y URLs. Si vas a citar un dato, abre la fuente original antes de pegarlo en el informe.
No metas datos sensibles: en versiones públicas del modelo, todo lo que pegas puede acabar usado para entrenamiento si no tienes una cuenta empresarial con privacidad activada. Para investigaciones reales, usa entornos privados o despliegues locales.
Cumple la legalidad: recopilar información pública es legal, pero el RGPD pone límites cuando se cruzan datos personales o se elaboran perfiles. Antes de un proyecto serio, revisa con asesoría legal qué fuentes y cruces puedes usar.
Mantén trazabilidad: guarda los prompts, las respuestas y las URLs originales. Un informe OSINT vale lo que vale su cadena de evidencias, no lo que un chat ha resumido bien.
Combina con herramientas dedicadas: proyectos como NETREAPER, una suite de hacking ético que recoge varias de las herramientas más usadas en ciberseguridad ofensiva, encajan bien con un copiloto LLM que ayude a interpretar los resultados.

Preguntas frecuentes

¿Es legal usar ChatGPT para OSINT?

Sí, mientras la información que se analiza sea pública y el uso respete la normativa de protección de datos del país en el que se opere. La parte delicada llega cuando se cruzan datos personales para crear perfiles, donde el RGPD exige base legal y, a veces, evaluación de impacto.

¿ChatGPT puede acceder a internet para hacer OSINT?

Depende de la versión y de la configuración. La interfaz pública de OpenAI ha incorporado búsqueda web, pero muchos despliegues empresariales la desactivan por motivos de cumplimiento. En esos casos el modelo trabaja sobre lo que el analista pega en el chat, no sobre fuentes en vivo.

¿Vale ChatGPT para investigaciones forenses serias?

Como apoyo, sí. Como única fuente, no. Las pruebas que se vayan a usar en un procedimiento legal o regulatorio tienen que apoyarse en fuentes originales, capturas con sello de tiempo y cadena de custodia. El LLM ayuda a redactar y resumir, pero no sustituye al peritaje.

¿Cuál es el mayor riesgo de mezclar OSINT con LLM?

El riesgo principal es la velocidad con la que se construye un perfil convincente pero falso. Un modelo puede juntar piezas reales con detalles inventados y devolverlas en un informe que parece sólido. Un revisor humano que cotege fuentes sigue siendo la mejor defensa.

¿Existen alternativas open source a ChatGPT para OSINT?

Sí. Modelos como Llama 3, Mistral o Qwen se pueden desplegar en local con herramientas tipo Ollama o LM Studio. Tienen menos potencia bruta que los modelos de frontera, pero permiten trabajar con datos sensibles sin enviarlos a un servicio externo, lo que pesa mucho en investigaciones internas.