La comunidad de la inteligencia artificial cuenta desde junio de 2025 con MonkeyOCR, un modelo open source especializado en el análisis y parsing de documentos tanto en inglés como en chino. Basado en un paradigma de «tripletes de Estructura-Reconocimiento-Relación» (SRR), MonkeyOCR apuesta por simplificar el proceso frente a los métodos modulares tradicionales y a los grandes modelos multimodales, combinando rapidez, precisión y eficiencia en el procesamiento de documentos PDF e imágenes.
Principales innovaciones de MonkeyOCR
MonkeyOCR ha sido desarrollado por un equipo liderado por Zhang Li y Yuliang Liu, y destaca por su arquitectura ligera, con tan solo 3.000 millones de parámetros, ofreciendo resultados superiores en benchmarks respecto a modelos cerrados y open source de gran tamaño, como Gemini 2.5 Pro o Qwen2.5 VL-72B. A nivel técnico, su modelo SRR permite abordar la detección de estructura, el reconocimiento de contenido y la predicción de relaciones entre bloques en una sola pasada, evitando la ineficiencia de pipelines tradicionales que combinan múltiples herramientas.
Entre los avances clave destacan:
- Mejor rendimiento frente a alternativas: en pruebas sobre nueve tipos de documentos en inglés y chino, MonkeyOCR supera en un 5,1 % de media a modelos como MinerU, logrando avances notables en el reconocimiento de fórmulas (15,0 % de mejora) y tablas (8,6 % de mejora).
- Procesamiento rápido y eficiente: es capaz de procesar documentos multipágina a una velocidad de 0,84 páginas por segundo en GPU H800, adelantando a MinerU (0,65) y Qwen2.5 VL-7B (0,12).
- Reconocimiento estructurado avanzado: genera tres archivos de salida —un documento markdown con la estructura y contenido extraídos, un PDF con las zonas detectadas y un JSON detallado con posiciones y relaciones— facilitando el análisis posterior y la integración en flujos de trabajo automatizados.
Uso y despliegue
MonkeyOCR está disponible en GitHub y puede instalarse fácilmente mediante entorno Conda y Python 3.10. Una vez descargados los pesos del modelo, es posible analizar documentos PDF o imágenes con un solo comando, obteniendo los resultados estructurados de forma rápida. Además, dispone de una demo accesible vía Gradio, lo que permite probar sus capacidades sin necesidad de configuración avanzada.

El modelo soporta la personalización de la detección de estructuras, con modelos específicos para documentos en chino (por ejemplo, layout_zh.pt), y es compatible tanto con backends LMDeploy como Transformers, ofreciendo flexibilidad para adaptarse a distintas GPUs y recursos.
Limitaciones y futuro
Por el momento, MonkeyOCR no admite documentos fotografiados, pero el equipo de desarrollo ha anunciado que esta funcionalidad se encuentra en desarrollo. El modelo está optimizado para uso en GPU (por ejemplo, RTX 3090) y requiere de ajustes si se utiliza LMDeploy, especialmente para evitar errores de memoria compartida en algunas tarjetas gráficas.
Otra de sus ventajas es la posibilidad de integrarse en pipelines de análisis documental para automatizar tareas de extracción de información en sectores como la educación, la banca, la investigación o el procesamiento de archivos legales y administrativos.
Evaluación y comparación
En los benchmarks OmniDocBench, MonkeyOCR demuestra una precisión sobresaliente en el reconocimiento de texto, fórmulas y tablas, así como en el análisis del orden de lectura y la relación entre bloques, superando a competidores tanto en inglés como en chino. Sus resultados están publicados y pueden citarse en trabajos científicos, aportando transparencia y rigor a la investigación.
Conclusión
MonkeyOCR se consolida como una de las opciones más avanzadas y eficientes para el análisis estructurado de documentos en PDF o imagen, destacando por su rapidez, precisión y facilidad de uso. Su enfoque modular, el soporte a múltiples idiomas y su naturaleza open source lo convierten en una herramienta imprescindible para proyectos de digitalización y extracción inteligente de datos documentales en la era de la inteligencia artificial.