Benchmark de Precision de Parsing de PDF: Docling vs Unstructured vs Marker vs Visual Pipeline

El parsing de PDF es la primera etapa en cualquier pipeline de datos empresarial de IA, y la que mas importa en terminos de precision. Un error de parsing en la primera etapa se propaga a traves de cada etapa posterior (chunking, embedding, recuperacion) y se acumula en salidas de IA que alucinan, pierden contexto o devuelven resultados irrelevantes.

Sin embargo, la mayoria de los equipos seleccionan su parser de PDF basandose en recomendaciones anecdoticas o conteos de estrellas en GitHub en lugar de una evaluacion estructurada. Este benchmark proporciona esa evaluacion estructurada.

Probamos cuatro herramientas líderes de parsing de PDF en cinco dimensiones que importan para la preparacion de datos de entrenamiento de IA: extraccion de tablas, manejo de diseno multi-columna, precision en PDFs escaneados (OCR), eliminacion de encabezados/pies de pagina y rendimiento bruto.

Las Herramientas

Docling (IBM Research) es una biblioteca de parsing de documentos de codigo abierto lanzada por IBM Research. Utiliza un modelo de analisis de diseno basado en deep learning entrenado con el dataset DocLayNet (mas de 80,000 paginas de documentos anotadas manualmente). IBM reporta una precision del 97.9% en extraccion de tablas en su benchmark publicado. Docling produce JSON estructurado con la jerarquia del documento preservada.

Unstructured.io es una biblioteca de codigo abierto que soporta mas de 64 tipos de archivos y proporciona multiples estrategias de parsing (hi-res con analisis de diseno, fast sin el, y OCR para documentos escaneados). Tiene fuerte adopcion comunitaria y respaldo comercial. La estrategia hi-res utiliza detectron2 para el analisis de diseno.

Marker (Datalab) convierte PDFs e imagenes a Markdown o JSON. Esta optimizado para velocidad, utilizando un pipeline de modelos especializados mas pequenos en lugar de un unico modelo grande de analisis de diseno. Marker sobresale en preservar el orden de lectura en disenos complejos.

Ertas Visual Pipeline utiliza Docling como su motor central de parsing de PDF pero lo envuelve en una interfaz visual de grafo de nodos con nodos de pre-procesamiento (puntuacion de calidad, deteccion de formato) y post-procesamiento (eliminacion de encabezados/pies de pagina, extraccion de metadatos, normalizacion de estructura). El enfoque de pipeline significa que el parsing no es un paso independiente, sino que esta integrado con la limpieza y transformacion posterior.

Corpus de Prueba

Recopilamos un corpus de 500 PDFs empresariales de fuentes publicamente disponibles:

150 documentos financieros — presentaciones 10-K, informes trimestrales y estados financieros con tablas densas y notas al pie
100 contratos legales — acuerdos multi-columna, terminos de servicio y presentaciones regulatorias
100 documentos medicos/clinicos — informes publicados de ensayos clinicos y resumenes de alta anonimizados
100 documentos tecnicos — especificaciones de ingenieria, manuales de producto y trabajos de investigacion
50 documentos de formato mixto — documentos que combinan texto, tablas, imagenes y formularios

Dentro de cada categoria, incluimos tanto PDFs nativamente digitales como copias escaneadas para probar el manejo del OCR.

La verdad de referencia se establecio mediante anotacion manual de 2,500 paginas (5 paginas por documento muestreadas) por tres anotadores independientes, con un acuerdo inter-anotador superior al 95%.

Resultados del Benchmark

Metrica	Docling (IBM)	Unstructured.io	Marker (Datalab)	Ertas Visual Pipeline
Extraccion de Tablas	97.9%	93.4%	91.7%	97.9%
Diseno Multi-Columna	94.2%	91.8%	96.1%	94.2%
PDF Escaneado (OCR)	89.1%	86.7%	84.3%	91.4%
Eliminacion de Encabezados/Pies	91.3%	88.5%	85.9%	93.7%
Velocidad (paginas/seg)	3.2	4.8	6.1	2.9
Formato de Salida	JSON	JSON/Dict	Markdown/JSON	JSON Estructurado
Licencia	MIT	Apache 2.0	GPL-3.0	Propietaria

Todas las metricas de precision son puntuaciones F1 (media armonica de precision y recall) medidas contra la verdad de referencia anotada manualmente.

Analisis Detallado

Extraccion de Tablas

La extraccion de tablas es la capacidad de parsing mas importante para documentos empresariales. Informes financieros, anexos legales, tablas de datos clinicos — estos contienen la informacion estructurada que los modelos de IA mas necesitan y que es mas dificil de extraer correctamente.

La precision del 97.9% en extraccion de tablas de Docling, publicada por IBM Research en el benchmark DocLayNet, se mantuvo en nuestras pruebas independientes. Su modelo de diseno basado en deep learning identifico correctamente los limites de tablas, la alineacion de columnas y la extension de celdas en el 97.9% de los casos de prueba.

La estrategia hi-res de Unstructured.io logro un 93.4%, con la mayoria de los errores ocurriendo en tablas con celdas fusionadas o tablas que abarcan saltos de pagina. Su estrategia fast (sin analisis de diseno) cayo al 84.2% en el mismo conjunto de pruebas, un recordatorio de que la seleccion de la estrategia de parsing importa tanto como la seleccion de la herramienta.

Marker logro un 91.7%, con una debilidad notable en tablas que usan alineacion visual (espacios en blanco) en lugar de bordes de celda explicitos. Su enfoque de prioridad en el orden de lectura a veces asigno incorrectamente las celdas de tabla a las columnas equivocadas en tablas sin bordes.

Ertas hereda la precision del 97.9% en extraccion de tablas de Docling directamente, ya que Docling es el motor de parsing. El pipeline no agrega ninguna regresion en la precision del parsing de tablas.

Diseno Multi-Columna

Los documentos multi-columna (contratos legales, trabajos academicos, disenos estilo periodico) prueban la capacidad de un parser para mantener el orden de lectura cuando el texto fluye en patrones no lineales.

Marker lidero esta categoria con un 96.1%. Su modelo especializado de orden de lectura fue el mas confiable para secuenciar correctamente el texto de disenos multi-columna, incluyendo documentos que mezclan secciones de una y varias columnas en la misma pagina.

Docling y Ertas lograron un 94.2%, con buen rendimiento en disenos estandar de dos columnas pero fusionando ocasionalmente columnas en documentos con espacios estrechos (menos de 0.3 pulgadas) entre columnas.

Unstructured.io obtuvo un 91.8%, con la mayoria de los errores ocurriendo en disenos de tres columnas y documentos donde el ancho de columna variaba entre secciones.

Precision en PDFs Escaneados (OCR)

Los PDFs escaneados siguen siendo el tipo de documento mas desafiante. La precision del OCR depende de la calidad del escaneo, y los archivos empresariales frecuentemente contienen escaneos degradados — documentos fotocopiados, faxes o escaneos realizados a baja resolucion.

Probamos en tres niveles de calidad:

Calidad del Escaneo	Docling	Unstructured	Marker	Ertas Pipeline
Alta (300 DPI, limpio)	95.8%	93.2%	91.1%	96.3%
Media (200 DPI, artefactos menores)	89.4%	87.1%	84.9%	92.1%
Baja (150 DPI, degradado)	82.1%	79.8%	76.9%	85.8%

Ertas supero al Docling independiente en PDFs escaneados porque el pipeline visual aplica pre-procesamiento antes del parsing: el nodo Quality Scorer detecta la calidad del escaneo y el nodo Format Normalizer aplica mejora de imagen (ajuste de contraste, correccion de inclinacion, reduccion de ruido) antes de que el documento llegue al parser. Este pre-procesamiento agrega latencia (de ahi la menor velocidad de Ertas) pero recupera de 2 a 4 puntos porcentuales de precision en escaneos degradados.

Ninguna herramienta supero el 86% de precision en escaneos de baja calidad. Para equipos empresariales con grandes archivos de documentos escaneados degradados, re-escanear a mayor resolucion sigue siendo la mejora de precision mas efectiva.

Eliminacion de Encabezados/Pies de Pagina

Los encabezados y pies de pagina (numeros de pagina, titulos de documentos, avisos de confidencialidad, marcas de fecha) contaminan la salida parseada si no se eliminan. Aparecen en el texto dividido en chunks, contaminan los embeddings y pueden aparecer en la recuperacion RAG como coincidencias falsas.

Ertas logro la mayor precision en eliminacion de encabezados/pies de pagina con un 93.7% usando un nodo de post-procesamiento dedicado que analiza patrones de texto repetitivo entre paginas. El contenido que aparece en la misma posicion en mas del 70% de las paginas se clasifica como material de encabezado/pie de pagina y se elimina.

El modelo de diseno de Docling identifica encabezados y pies de pagina estructuralmente pero no siempre los elimina de la salida; aparecen como elementos etiquetados que los consumidores posteriores deben filtrar. Sin filtrado, permanecen en el texto parseado.

El enfoque de Marker para el manejo de encabezados/pies de pagina fue el menos confiable, particularmente para pies de pagina que contienen contenido sustantivo (como notas de tabla) mezclado con numeros de pagina.

Velocidad de Procesamiento

Marker fue la herramienta mas rapida con 6.1 paginas por segundo, casi el doble que Docling (3.2 paginas/seg). La ventaja de velocidad de Marker proviene del uso de modelos especializados mas pequenos en lugar de un unico modelo grande de analisis de diseno.

La estrategia hi-res de Unstructured.io proceso 4.8 paginas por segundo. Su estrategia fast (sin analisis de diseno) alcanzo 12.3 paginas por segundo pero con precision significativamente reducida.

Ertas fue el mas lento con 2.9 paginas por segundo porque el pipeline visual ejecuta multiples nodos de procesamiento secuencialmente — puntuacion de calidad, normalizacion de formato, parsing y post-procesamiento. Cada nodo agrega latencia. Para el procesamiento por lotes de archivos grandes, este compromiso favorece la precision sobre la velocidad. Para el procesamiento de documentos en tiempo real, la velocidad puede ser la restriccion determinante.

Cuando Usar Cada Herramienta

Elija Docling cuando necesite la mayor precision en extraccion de tablas y este construyendo su propio pipeline de procesamiento en Python. Tiene licencia MIT, esta bien documentado y es mantenido activamente por IBM Research. Ideal para equipos con capacidad de ingenieria para construir alrededor de una biblioteca de parsing.

Elija Unstructured.io cuando necesite amplio soporte de formatos de archivo mas alla de PDF. Su soporte de mas de 64 formatos es inigualable, y la plataforma comercial agrega orquestacion de flujos de trabajo. Ideal para equipos que procesan diversos tipos de documentos donde PDF es un formato entre muchos.

Elija Marker cuando la velocidad de procesamiento sea la restriccion principal y sus documentos sean predominantemente de texto pesado con disenos simples. Su manejo del orden de lectura es el mejor disponible. Ideal para equipos que procesan grandes volumenes de trabajos de investigacion, articulos o documentos de una sola columna.

Elija Ertas Visual Pipeline cuando necesite parsing como parte de un pipeline de datos integrado con redaccion de PII, puntuacion de calidad y chunking/embedding posterior. La interfaz visual de grafo de nodos significa que la configuracion del pipeline no requiere codigo, y cada paso de procesamiento se registra para pistas de auditoria. Ideal para equipos en industrias reguladas o proveedores de servicios que entregan pipelines de datos conformes a sus clientes.

Limitaciones de Este Benchmark

Se aplican varias advertencias:

Sesgo del corpus. Nuestro corpus de 500 documentos se inclina hacia documentos comerciales en ingles norteamericano. El rendimiento en documentos en otros idiomas, escrituras o disenos puede diferir.
Sensibilidad a la version. Todas las herramientas estan en desarrollo activo. Se probaron Docling 2.x, Unstructured 0.16 y Marker 1.x. Los resultados pueden no mantenerse para versiones futuras.
Dependencia del hardware. La disponibilidad de GPU afecta significativamente a las herramientas que usan modelos de deep learning para analisis de diseno. El rendimiento solo con CPU es sustancialmente mas lento para Docling y el modo hi-res de Unstructured.
Efectos de integracion. Los benchmarks de herramientas independientes no capturan los costos de integracion — el tiempo de ingenieria para conectar un parser a las etapas posteriores del pipeline. Esto favorece las soluciones integradas pero no se refleja en los numeros de precision.

Conclusion

No existe un unico mejor parser de PDF para todos los casos de uso. Docling lidera en precision de extraccion de tablas (97.9%), Marker lidera en velocidad (6.1 paginas/seg) y manejo multi-columna (96.1%), y Unstructured lidera en cobertura de formatos (mas de 64 tipos).

Para pipelines de datos de entrenamiento de IA empresarial donde la precision importa mas que la velocidad, los enfoques basados en Docling (incluyendo el pipeline visual de Ertas) son la opcion mas solida. La ventaja de precision de 4 a 6 puntos porcentuales sobre Marker en extraccion de tablas se acumula a traves de miles de documentos, representando miles de celdas de tabla correctamente extraidas en lugar de perdidas o distorsionadas.

Para equipos que construyen pipelines integrados con requisitos de cumplimiento, el enfoque de pipeline agrega valor que el parsing independiente no puede proporcionar: pre-procesamiento que mejora la precision en escaneos degradados, post-procesamiento que elimina contaminacion, y registro de auditoria que satisface requisitos regulatorios. El costo de rendimiento de esta integracion (2.9 vs 3.2 paginas/seg para Docling independiente) es modesto en relacion con las ganancias de precision y observabilidad.

Para benchmarks detallados del pipeline completo de datos empresariales incluyendo etapas de redaccion, chunking y embedding, consulte nuestro informe de benchmark integral.