PaddleOCR-VL-1.6 eleva el nivel del OCR abierto para documentos complejos

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

PaddlePaddle ha presentado PaddleOCR-VL-1.6, una nueva versión de su modelo de análisis documental que vuelve a poner presión sobre las soluciones comerciales de OCR y sobre los grandes modelos multimodales generalistas. El dato más llamativo es su puntuación de 96,33 en OmniDocBench v1.6, un benchmark centrado en la extracción y comprensión estructurada de documentos, donde supera a modelos mucho más grandes y a sistemas cerrados de referencia.

La noticia importa porque el OCR ya no consiste solo en “leer texto” dentro de una imagen. En entornos empresariales, jurídicos, financieros, sanitarios o industriales, los documentos contienen tablas, fórmulas, sellos, diagramas, encabezados, pies de página, párrafos partidos entre páginas, imágenes escaneadas con mala iluminación o fotografías tomadas desde una pantalla. Convertir todo eso en Markdown o JSON utilizable por sistemas RAG, agentes de IA o flujos de automatización exige algo más que reconocimiento óptico clásico.

Un modelo compacto que compite con sistemas mucho mayores

PaddleOCR-VL-1.6 se presenta como una evolución directa de PaddleOCR-VL-1.5. Mantiene una arquitectura compacta, en torno a los 900 millones de parámetros según el proyecto, y está diseñada para tareas de document parsing: localización de líneas de texto, reconocimiento de contenido, extracción de tablas, fórmulas, gráficos y sellos, además de salida estructurada para aplicaciones de inteligencia artificial.

La mejora frente a la versión anterior no viene solo de ampliar datos sin más. El equipo de PaddlePaddle describe un enfoque de optimización por regiones: identificar áreas donde el modelo anterior rendía peor, reforzar esos casos y aplicar una fase progresiva de postentrenamiento. En documentos reales, ese tipo de ajuste tiene sentido, porque los fallos suelen concentrarse en zonas difíciles: tablas partidas, fórmulas densas, texto inclinado, escaneos pobres o elementos visuales con estructura.

Modelo	Puntuación global en OmniDocBench v1.6
PaddleOCR-VL-1.6	96,3
MinerU2.5-Pro	95,8
GLM-OCR	95,2
PaddleOCR-VL-1.5	94,9
PaddleOCR-VL	94,2
MinerU2.5	93,0
Gemini-3 Pro	92,9
dots.ocr	90,8
DeepSeek-OCR 2	90,3
Qwen3-VL-235B	89,8
MonkeyOCR-pro-3B	88,6
GPT-5.2	86,6
Dolphin-1.5	86,5
Nanonets-OCR-s	83,6

La tabla ayuda a entender el impacto del anuncio, pero también conviene leerla con prudencia. Un benchmark no sustituye una evaluación interna con documentos propios, idiomas concretos, requisitos de privacidad, latencia, coste operativo y calidad de salida. Aun así, que un modelo compacto lidere en una prueba pública de análisis documental confirma una tendencia: las soluciones especializadas pueden superar a VLMs generalistas en tareas muy concretas, incluso con muchos menos parámetros.

Texto, fórmulas y tablas: donde se decide el valor empresarial

PaddleOCR-VL-1.6 no destaca solo en la puntuación global. Según los resultados mostrados por el equipo, también lidera en texto, fórmulas y tablas. En Text Score alcanza 96,8, en Formula Score llega a 97,5 y en Table TEDS obtiene 94,8. Este último dato es especialmente relevante, porque las tablas siguen siendo uno de los puntos débiles de muchos sistemas de OCR empresarial.

Una tabla mal extraída puede cambiar el sentido de una factura, un informe financiero, un resultado médico, una hoja técnica o una póliza. El problema no está solo en leer caracteres, sino en conservar filas, columnas, celdas combinadas, jerarquías y relación entre cabeceras y valores. Para aplicaciones RAG o agentes que responden a preguntas sobre documentos, una tabla mal reconstruida puede generar respuestas incorrectas aunque el texto haya sido reconocido correctamente.

Prueba	PaddleOCR-VL-1.6	Mejor rival citado en la gráfica	Diferencia
Text Score	96,8	96,4 (MinerU2.5-Pro)	+0,4
Formula Score	97,5	97,5 (MinerU2.5)	Empate
Table TEDS	94,8	93,4 (MinerU2.5-Pro)	+1,4
Scanning	94,7	93,4 (PaddleOCR-VL-1.5)	+1,3
Warping	92,5	91,3 (PaddleOCR-VL-1.5)	+1,2
Screen Photography	92,8	91,8 (PaddleOCR-VL-1.5 / GLM-OCR)	+1,0
Illumination	93,3	92,2 (PaddleOCR-VL-1.5)	+1,1

El rendimiento en fórmulas también tiene peso. Documentos científicos, patentes, manuales técnicos, artículos académicos o informes de ingeniería suelen mezclar lenguaje natural con notación matemática. Un sistema capaz de extraer fórmulas con precisión puede reducir mucho el trabajo manual en bases documentales técnicas.

Documentos reales, no solo PDFs limpios

Uno de los puntos fuertes de la familia PaddleOCR-VL es su atención a escenarios reales. La nueva versión se evalúa también en condiciones como escaneos, deformaciones, inclinación, fotografías de pantalla e iluminación irregular. Este detalle importa porque una parte enorme de la documentación que entra en empresas no llega como PDF perfecto generado digitalmente. Llega como foto de móvil, imagen comprimida, documento torcido, contrato escaneado o captura parcial.

PaddleOCR-VL-1.6 mejora en esos escenarios frente a la versión 1.5 y frente a varios modelos comparados. En Real5-OmniDocBench, la robustez frente a escaneo, warping, screen photography e iluminación puede ser más útil para una empresa que una pequeña diferencia en documentos limpios.

Escenario real	Problema habitual	Por qué importa
Escaneado	Ruido, baja resolución, bordes sucios	Muy común en archivos históricos o administrativos
Skew	Documento inclinado	Afecta a texto, tablas y lectura de líneas
Warping	Deformación por cámara o papel curvado	Frecuente en fotos de móvil
Screen photography	Capturas de pantallas o fotos de monitores	Habitual en soporte, incidencias y documentación informal
Illumination	Sombras, reflejos o luz desigual	Reduce precisión del OCR tradicional
Tablas multipágina	Fragmentación del contenido	Rompe análisis financiero, inventarios o informes
Sellos y marcas	Elementos no textuales con valor legal	Relevante en contratos, trámites y documentación oficial

La compatibilidad con fusión de tablas entre páginas y reconocimiento de encabezados de párrafos multipágina apunta precisamente a esa realidad. Muchos documentos largos no están pensados para una extracción automática sencilla. Los humanos entendemos que una tabla continúa en la siguiente página; un sistema OCR debe aprender a conservar esa estructura si quiere ser útil en producción.

Una amenaza para OCR comercial, pero no su final

El titular de que este modelo “mata” al OCR comercial suena bien, pero conviene matizarlo. PaddleOCR-VL-1.6 eleva el listón para herramientas propietarias y modelos cerrados, sobre todo porque combina buen rendimiento, tamaño contenido y distribución abierta. Eso puede cambiar decisiones de compra en equipos técnicos que prefieren autoalojar, reducir costes o evitar enviar documentos sensibles a APIs externas.

Pero las soluciones comerciales no venden solo precisión en un benchmark. Venden soporte, SLA, integración con ERPs, cumplimiento normativo, gobierno de datos, interfaces de revisión humana, conectores, auditoría, escalado, seguridad y mantenimiento. En banca, seguros, sanidad o administración pública, esos elementos pueden pesar tanto como el modelo base.

Donde sí puede tener un impacto claro es en proyectos con capacidad técnica interna. Empresas con equipos de datos, IA o infraestructura pueden integrar PaddleOCR-VL-1.6 en pipelines propios, convertir PDFs e imágenes a Markdown o JSON, alimentar sistemas RAG y mantener control sobre la información. También puede reducir barreras para startups que construyen productos sobre documentos: asistentes legales, motores de búsqueda corporativos, automatización de facturas, análisis de informes o procesamiento de expedientes.

La ventaja de los modelos especializados

La comparación con Gemini, GPT, Qwen o DeepSeek ilustra otra tendencia. Los grandes modelos multimodales son cada vez más capaces, pero no siempre son la mejor opción para tareas repetitivas y especializadas. Un modelo de document parsing entrenado para localizar regiones, leer tablas, reconocer fórmulas y conservar estructura puede ser más eficiente que enviar cada documento a un modelo generalista enorme.

Eso no significa que los VLMs generalistas queden fuera del flujo. En muchas arquitecturas, el OCR especializado hará la primera parte: extraer y estructurar. Después, un LLM o VLM más grande interpretará, resumirá, comparará, responderá preguntas o generará acciones. El valor está en combinar capas, no necesariamente en usar un único modelo para todo.

Enfoque	Ventaja	Límite
OCR especializado abierto	Control, coste, eficiencia y adaptación	Requiere integración técnica
OCR comercial	Soporte, producto cerrado y cumplimiento	Coste y menor flexibilidad
VLM generalista	Razonamiento multimodal amplio	Más caro y menos especializado
Pipeline híbrido OCR + LLM	Buen equilibrio entre extracción y análisis	Arquitectura más compleja
API externa	Despliegue rápido	Riesgo de privacidad y dependencia

PaddleOCR-VL-1.6 encaja especialmente bien en esa arquitectura híbrida. Su salida en Markdown y JSON facilita que los documentos se conviertan en datos listos para sistemas de búsqueda semántica, bases vectoriales, agentes o flujos de revisión. Para empresas que trabajan con grandes volúmenes documentales, esa conversión es el primer paso para que la inteligencia artificial tenga contexto fiable.

Lo que falta por comprobar

El siguiente paso será ver cómo se comporta en producción. Los benchmarks son una referencia útil, pero cada organización tiene documentos distintos: idiomas, tipografías, baja calidad de imagen, tablas propias, formularios internos, sellos locales, documentos manuscritos o formatos antiguos. También hay que medir latencia, consumo de GPU, coste por página, estabilidad del pipeline y facilidad de despliegue.

La compatibilidad con PaddleOCR-VL-1.5 facilita la migración, según el equipo, y eso puede acelerar pruebas en empresas que ya usaban la versión anterior. La disponibilidad en Hugging Face, la integración con PaddleOCR y el soporte de salidas estructuradas ayudan a que más desarrolladores lo prueben sin partir de cero.

La lectura más relevante es que el OCR está entrando en una etapa más competitiva. Ya no es una tecnología madura y aburrida escondida en el backend. Es una pieza clave para que los modelos de lenguaje puedan trabajar con los documentos reales de una organización. Si el documento entra mal, la respuesta del agente saldrá mal.

PaddleOCR-VL-1.6 no elimina de golpe el mercado comercial, pero sí cambia la conversación. Un modelo abierto, compacto y con resultados tan altos en análisis documental obliga a justificar mejor el coste de las plataformas cerradas. Y para muchas empresas, esa presión llega en el momento justo: cuando quieren usar IA con sus documentos, pero no quieren perder control sobre sus datos.

Preguntas frecuentes

¿Qué es PaddleOCR-VL-1.6?

PaddleOCR-VL-1.6 es un modelo de análisis documental de PaddlePaddle orientado a extraer texto, fórmulas, tablas, gráficos, sellos y estructura de documentos en formatos como Markdown o JSON.

Qué puntuación obtiene en OmniDocBench v1.6?

Según los resultados publicados por el proyecto, alcanza una puntuación global de 96,33 en OmniDocBench v1.6.

Sustituye a los OCR comerciales?

No necesariamente. Puede competir con ellos en precisión y coste, pero las soluciones comerciales también incluyen soporte, integración, cumplimiento, auditoría y herramientas de revisión.

Por qué es importante para sistemas RAG y agentes de IA?

Porque permite convertir documentos complejos en datos estructurados. Eso mejora la calidad del contexto que después usan modelos de lenguaje, buscadores internos o agentes empresariales.

Fuentes: