El proyecto de código abierto de la Universidad Renmin de China combina navegación web, generación de informes y exploración profunda para revolucionar la investigación basada en IA
La Universidad Renmin de China ha presentado oficialmente WebThinker, un innovador marco de investigación que equipa a los modelos de lenguaje de gran tamaño (LLMs) con capacidades autónomas de búsqueda web, navegación y redacción de informes científicos. Lanzado como proyecto open source en GitHub por el equipo RUC-NLPIR, WebThinker representa una evolución significativa frente a los agentes de RAG (Retrieval-Augmented Generation) tradicionales, permitiendo una ejecución de tareas de principio a fin dentro del propio proceso de razonamiento del modelo.
Una plataforma diseñada para la exploración profunda
WebThinker destaca por su capacidad para dotar a los modelos LLM de funciones autónomas, entre ellas:
- Búsqueda y navegación web inteligente: el sistema puede buscar en internet, interactuar con elementos de una página (como enlaces o botones), y seguir enlaces relacionados para profundizar en temas complejos.
- Redacción asistida por IA: durante la fase de razonamiento, el modelo puede redactar secciones de un informe, editar el contenido ya generado y verificar su coherencia y calidad.
- Integración de herramientas personalizadas: WebThinker introduce tres utilidades principales para los LLM: generación de contenido por capítulos, revisión estructural del informe y edición sobre la marcha.
Esta arquitectura permite una exploración en tiempo real del conocimiento, reduciendo drásticamente el tiempo necesario para compilar información y mejorar la calidad de los informes generados.
Resultados que superan a la competencia
Según las pruebas realizadas por el equipo de desarrollo, WebThinker ha superado de forma consistente a otros agentes en benchmarks exigentes como GPQA, GAIA, WebWalkerQA y el desafiante Humanity’s Last Exam (HLE). En tareas abiertas de generación de informes, su modelo insignia QwQ-32B demostró un rendimiento superior frente a soluciones como Gemini 2.0 o Grok-3 DeeperSearch.

El rendimiento del sistema se evalúa no solo en términos de precisión de respuestas, sino también en la coherencia global del contenido generado, uso eficaz de herramientas y adaptabilidad a nueva información.
Compatibilidad y despliegue
WebThinker es compatible con modelos como QwQ-32B, Qwen2.5-32B-Instruct y DeepSeek-R1, y puede desplegarse usando vLLM. También se integra con la API de Bing para realizar búsquedas web efectivas y con Crawl4AI para el análisis de páginas complejas generadas con JavaScript.
Los usuarios pueden ejecutar el sistema en distintos modos:
- Resolución de problemas: para responder preguntas complejas mediante razonamiento autónomo.
- Generación de informes: para producir documentos extensos y argumentados en temas científicos o técnicos.
- Evaluación automática: empleando modelos externos como GPT-4o para valorar la calidad del contenido generado.
Un paso hacia la IA investigadora
WebThinker encarna una visión emergente: la del modelo de lenguaje como investigador digital. Al integrar búsqueda activa, pensamiento estructurado y producción de texto, el sistema se aproxima al ideal de una IA capaz de realizar tareas de análisis y documentación complejas sin intervención humana directa.
El proyecto ha sido publicado bajo licencia MIT y ya acumula más de 900 estrellas en GitHub, con una comunidad en crecimiento y contribuciones desde el entorno académico y profesional.
Repositorio oficial y documentación:
🔗 https://github.com/RUC-NLPIR/WebThinker
📄 Artículo en arXiv: «WebThinker: Empowering Large Reasoning Models with Deep Research Capability»
Para investigadores, desarrolladores y empresas tecnológicas, WebThinker abre un nuevo camino hacia el uso real de la inteligencia artificial en el descubrimiento de conocimiento y la automatización de la investigación compleja.