PDF解析精度基准测试：Docling vs Unstructured vs Marker vs Visual Pipeline

PDF解析是任何企业AI数据管道的第一阶段，也是精度最重要的阶段。第一阶段的解析错误会传播到每个下游阶段——分块、嵌入、检索——并在AI输出中累积，导致幻觉、遗漏上下文或返回不相关的结果。

然而，大多数团队选择PDF解析器时依据的是经验推荐或GitHub星标数量，而非结构化评估。本基准测试提供了这种结构化评估。

我们在五个对AI训练数据准备至关重要的维度上测试了四种领先的PDF解析工具：表格提取、多栏布局处理、扫描PDF（OCR）精度、页眉/页脚去除和原始吞吐量。

工具介绍

Docling (IBM Research) 是IBM Research发布的开源文档解析库。它使用在DocLayNet数据集（超过80,000页手动标注的文档页面）上训练的深度学习布局分析模型。IBM报告在其发布的基准测试中表格提取精度为97.9%。Docling输出保留文档层次结构的结构化JSON。

Unstructured.io 是一个支持超过64种文件类型的开源库，提供多种解析策略（带布局分析的hi-res、不带布局分析的fast，以及用于扫描文档的OCR）。它拥有强大的社区采用率和商业支持。hi-res策略使用detectron2进行布局分析。

Marker (Datalab) 将PDF和图像转换为Markdown或JSON。它针对速度进行了优化，使用一系列较小的专用模型而非单个大型布局分析模型。Marker在保持复杂布局的阅读顺序方面表现出色。

Ertas Visual Pipeline 使用Docling作为其核心PDF解析引擎，但将其包装在可视化节点图界面中，配备前处理（质量评分、格式检测）和后处理（页眉/页脚去除、元数据提取、结构规范化）节点。管道方法意味着解析不是一个独立步骤——它与下游的清洗和转换集成在一起。

测试语料库

我们从公开可用来源收集了500份企业PDF的语料库：

150份财务文档 — 10-K申报、季度报告和带有密集表格和脚注的财务报表
100份法律合同 — 多栏协议、服务条款和监管文件
100份医疗/临床文档 — 已发表的临床试验报告和匿名化出院摘要
100份技术文档 — 工程规范、产品手册和研究论文
50份混合格式文档 — 结合文本、表格、图像和表单的文档

在每个类别中，我们同时包含了原生数字PDF和扫描副本，以测试OCR处理能力。

基准真值通过三位独立标注员对2,500页（每份文档抽样5页）的手动标注建立，标注员间一致性超过95%。

基准测试结果

指标	Docling (IBM)	Unstructured.io	Marker (Datalab)	Ertas Visual Pipeline
表格提取	97.9%	93.4%	91.7%	97.9%
多栏布局	94.2%	91.8%	96.1%	94.2%
扫描PDF（OCR）	89.1%	86.7%	84.3%	91.4%
页眉/页脚去除	91.3%	88.5%	85.9%	93.7%
速度（页/秒）	3.2	4.8	6.1	2.9
输出格式	JSON	JSON/Dict	Markdown/JSON	结构化JSON
许可证	MIT	Apache 2.0	GPL-3.0	专有

所有精度指标均为F1分数（精确率和召回率的调和平均值），以手动标注的基准真值为参照。

详细分析

表格提取

表格提取是企业文档中最重要的解析能力。财务报告、法律附件、临床数据表——这些包含AI模型最需要且最难正确提取的结构化信息。

Docling 97.9%的表格提取精度由IBM Research在DocLayNet基准测试中发布，在我们的独立测试中得到了验证。其深度学习布局模型在97.9%的测试用例中正确识别了表格边界、列对齐和单元格跨越。

Unstructured.io的hi-res策略达到了93.4%，大多数错误出现在具有合并单元格的表格或跨页表格中。其fast策略（不带布局分析）在相同测试集上降至84.2%——这提醒我们解析策略的选择与工具选择同样重要。

Marker达到了91.7%，在使用视觉对齐（空白）而非显式单元格边框的表格上有明显弱点。其阅读顺序优先的方法有时会在无边框表格中将表格单元格错误分配到错误的列。

Ertas直接继承了Docling 97.9%的表格提取精度，因为Docling是其解析引擎。管道不会对表格解析精度造成任何回退。

多栏布局

多栏文档（法律合同、学术论文、报纸式布局）测试解析器在文本以非线性模式流动时维持阅读顺序的能力。

Marker以96.1%领先此类别。其专用的阅读顺序模型在正确排序多栏布局的文本方面最为可靠，包括在同一页面上混合单栏和多栏部分的文档。

Docling和Ertas达到了94.2%，在标准双栏布局上表现良好，但偶尔在列间距窄（小于0.3英寸）的文档中合并列。

Unstructured.io得分91.8%，大多数错误出现在三栏布局和列宽在各部分之间变化的文档中。

扫描PDF（OCR）精度

扫描PDF仍然是最具挑战性的文档类型。OCR精度取决于扫描质量，而企业档案中经常包含退化的扫描件——影印文档、传真或低分辨率扫描。

我们在三个质量级别上进行了测试：

扫描质量	Docling	Unstructured	Marker	Ertas Pipeline
高（300 DPI，清晰）	95.8%	93.2%	91.1%	96.3%
中（200 DPI，轻微瑕疵）	89.4%	87.1%	84.9%	92.1%
低（150 DPI，退化）	82.1%	79.8%	76.9%	85.8%

Ertas在扫描PDF上优于独立的Docling，因为可视化管道在解析之前应用预处理：Quality Scorer节点检测扫描质量，Format Normalizer节点在文档到达解析器之前应用图像增强（对比度调整、纠偏、降噪）。这种预处理增加了延迟（因此Ertas速度较慢），但在退化扫描上恢复了2到4个百分点的精度。

没有任何工具在低质量扫描上超过86%的精度。对于拥有大量退化扫描文档档案的企业团队，以更高分辨率重新扫描仍然是最有效的精度改进方法。

页眉/页脚去除

页眉和页脚——页码、文档标题、保密声明、日期戳——如果不去除会污染解析输出。它们出现在分块文本中，污染嵌入，并可能在RAG检索中作为误匹配出现。

Ertas以93.7%的页眉/页脚去除精度最高，使用专用的后处理节点分析跨页面的重复文本模式。出现在超过70%页面相同位置的内容被分类为页眉/页脚材料并被剥离。

Docling的布局模型在结构上识别页眉和页脚，但并不总是从输出中去除它们——它们作为标记元素出现，下游消费者必须进行过滤。如果不过滤，它们将保留在解析文本中。

Marker处理页眉/页脚的方法最不可靠，特别是对于包含实质内容（如表格脚注）与页码混合的页脚。

处理速度

Marker是最快的工具，每秒6.1页，几乎是Docling（3.2页/秒）的两倍。Marker的速度优势来自使用较小的专用模型而非单个大型布局分析模型。

Unstructured.io的hi-res策略每秒处理4.8页。其fast策略（不带布局分析）达到每秒12.3页，但精度显著降低。

Ertas最慢，每秒2.9页，因为可视化管道按顺序执行多个处理节点——质量评分、格式规范化、解析和后处理。每个节点都增加延迟。对于大型档案的批量处理，这种权衡有利于精度而非速度。对于实时文档处理，速度可能是约束性条件。

何时使用每种工具

选择Docling当您需要最高的表格提取精度并且正在用Python构建自己的处理管道时。它采用MIT许可证，文档完善，由IBM Research积极维护。最适合有工程能力围绕解析库进行构建的团队。

选择Unstructured.io当您需要超越PDF的广泛文件格式支持时。其超过64种格式的支持无与伦比，商业平台增加了工作流编排。最适合处理PDF只是众多格式之一的多样化文档类型的团队。

选择Marker当处理速度是主要约束且您的文档主要是文本密集型且布局简单时。其阅读顺序处理是最佳可用方案。最适合处理大量研究论文、文章或单栏文档的团队。

选择Ertas Visual Pipeline当您需要将解析作为集成数据管道的一部分，包含PII脱敏、质量评分以及下游分块/嵌入时。可视化节点图界面意味着管道配置不需要代码，每个处理步骤都被记录以供审计追踪。最适合受监管行业的团队或向客户交付合规数据管道的服务提供商。

本基准测试的局限性

需要注意以下几点：

语料库偏差。 我们的500文档语料库偏向北美英语商业文档。其他语言、文字或布局的文档性能可能不同。
版本敏感性。 所有工具都在积极开发中。测试了Docling 2.x、Unstructured 0.16和Marker 1.x。未来版本的结果可能不同。
硬件依赖性。 GPU可用性显著影响使用深度学习模型进行布局分析的工具。Docling和Unstructured hi-res模式的仅CPU性能明显较慢。
集成效应。 独立工具基准测试无法捕获集成成本——将解析器连接到下游管道阶段的工程时间。这有利于集成解决方案，但不反映在精度数字中。

结论

不存在适用于所有用例的单一最佳PDF解析器。Docling在表格提取精度上领先（97.9%），Marker在速度（6.1页/秒）和多栏处理（96.1%）上领先，Unstructured在格式覆盖上领先（超过64种类型）。

对于精度比速度更重要的企业AI训练数据管道，基于Docling的方法（包括Ertas的可视化管道）是最强的选择。与Marker相比，在表格提取方面4到6个百分点的精度优势在数千份文档中累积——代表着数千个被正确提取而非丢失或错乱的表格单元格。

对于构建具有合规要求的集成管道的团队，管道方法提供了独立解析无法提供的价值：提高退化扫描精度的预处理、去除污染的后处理，以及满足监管要求的审计日志记录。这种集成的吞吐量成本（2.9 vs 独立Docling的3.2页/秒）相对于精度和可观察性的提升来说是适中的。

有关包括脱敏、分块和嵌入阶段在内的完整企业数据管道详细基准测试，请参阅我们的综合基准测试报告。