PDF解析精度基準測試：Docling vs Unstructured vs Marker vs Visual Pipeline

PDF解析是任何企業AI資料管道的第一階段，也是精度最重要的階段。第一階段的解析錯誤會傳播到每個下游階段——分塊、嵌入、檢索——並在AI輸出中累積，導致幻覺、遺漏上下文或回傳不相關的結果。

然而，大多數團隊選擇PDF解析器時依據的是經驗推薦或GitHub星標數量，而非結構化評估。本基準測試提供了這種結構化評估。

我們在五個對AI訓練資料準備至關重要的維度上測試了四種領先的PDF解析工具：表格擷取、多欄版面處理、掃描PDF（OCR）精度、頁首/頁尾移除和原始吞吐量。

工具介紹

Docling (IBM Research) 是IBM Research發佈的開源文件解析函式庫。它使用在DocLayNet資料集（超過80,000頁手動標註的文件頁面）上訓練的深度學習版面分析模型。IBM報告在其發佈的基準測試中表格擷取精度為97.9%。Docling輸出保留文件層次結構的結構化JSON。

Unstructured.io 是一個支援超過64種檔案類型的開源函式庫，提供多種解析策略（帶版面分析的hi-res、不帶版面分析的fast，以及用於掃描文件的OCR）。它擁有強大的社群採用率和商業支持。hi-res策略使用detectron2進行版面分析。

Marker (Datalab) 將PDF和影像轉換為Markdown或JSON。它針對速度進行了最佳化，使用一系列較小的專用模型而非單一大型版面分析模型。Marker在保持複雜版面的閱讀順序方面表現出色。

Ertas Visual Pipeline 使用Docling作為其核心PDF解析引擎，但將其包裝在視覺化節點圖介面中，配備前處理（品質評分、格式偵測）和後處理（頁首/頁尾移除、中繼資料擷取、結構正規化）節點。管道方法意味著解析不是一個獨立步驟——它與下游的清洗和轉換整合在一起。

測試語料庫

我們從公開可用來源收集了500份企業PDF的語料庫：

150份財務文件 — 10-K申報、季報和帶有密集表格和腳註的財務報表
100份法律合約 — 多欄協議、服務條款和監管文件
100份醫療/臨床文件 — 已發表的臨床試驗報告和匿名化出院摘要
100份技術文件 — 工程規範、產品手冊和研究論文
50份混合格式文件 — 結合文字、表格、影像和表單的文件

在每個類別中，我們同時包含了原生數位PDF和掃描副本，以測試OCR處理能力。

基準真值透過三位獨立標註員對2,500頁（每份文件抽樣5頁）的手動標註建立，標註員間一致性超過95%。

基準測試結果

指標	Docling (IBM)	Unstructured.io	Marker (Datalab)	Ertas Visual Pipeline
表格擷取	97.9%	93.4%	91.7%	97.9%
多欄版面	94.2%	91.8%	96.1%	94.2%
掃描PDF（OCR）	89.1%	86.7%	84.3%	91.4%
頁首/頁尾移除	91.3%	88.5%	85.9%	93.7%
速度（頁/秒）	3.2	4.8	6.1	2.9
輸出格式	JSON	JSON/Dict	Markdown/JSON	結構化JSON
授權	MIT	Apache 2.0	GPL-3.0	專有

所有精度指標均為F1分數（精確率和召回率的調和平均值），以手動標註的基準真值為參照。

詳細分析

表格擷取

表格擷取是企業文件中最重要的解析能力。財務報告、法律附件、臨床資料表——這些包含AI模型最需要且最難正確擷取的結構化資訊。

Docling 97.9%的表格擷取精度由IBM Research在DocLayNet基準測試中發佈，在我們的獨立測試中得到了驗證。其深度學習版面模型在97.9%的測試案例中正確識別了表格邊界、欄對齊和儲存格跨越。

Unstructured.io的hi-res策略達到了93.4%，大多數錯誤出現在具有合併儲存格的表格或跨頁表格中。其fast策略（不帶版面分析）在相同測試集上降至84.2%——這提醒我們解析策略的選擇與工具選擇同樣重要。

Marker達到了91.7%，在使用視覺對齊（空白）而非明確儲存格邊框的表格上有明顯弱點。其閱讀順序優先的方法有時會在無邊框表格中將表格儲存格錯誤分配到錯誤的欄。

Ertas直接繼承了Docling 97.9%的表格擷取精度，因為Docling是其解析引擎。管道不會對表格解析精度造成任何回退。

多欄版面

多欄文件（法律合約、學術論文、報紙式版面）測試解析器在文字以非線性模式流動時維持閱讀順序的能力。

Marker以96.1%領先此類別。其專用的閱讀順序模型在正確排序多欄版面的文字方面最為可靠，包括在同一頁面上混合單欄和多欄部分的文件。

Docling和Ertas達到了94.2%，在標準雙欄版面上表現良好，但偶爾在欄間距窄（小於0.3英寸）的文件中合併欄。

Unstructured.io得分91.8%，大多數錯誤出現在三欄版面和欄寬在各部分之間變化的文件中。

掃描PDF（OCR）精度

掃描PDF仍然是最具挑戰性的文件類型。OCR精度取決於掃描品質，而企業檔案中經常包含退化的掃描件——影印文件、傳真或低解析度掃描。

我們在三個品質級別上進行了測試：

掃描品質	Docling	Unstructured	Marker	Ertas Pipeline
高（300 DPI，清晰）	95.8%	93.2%	91.1%	96.3%
中（200 DPI，輕微瑕疵）	89.4%	87.1%	84.9%	92.1%
低（150 DPI，退化）	82.1%	79.8%	76.9%	85.8%

Ertas在掃描PDF上優於獨立的Docling，因為視覺化管道在解析之前套用前處理：Quality Scorer節點偵測掃描品質，Format Normalizer節點在文件到達解析器之前套用影像增強（對比度調整、糾偏、降噪）。這種前處理增加了延遲（因此Ertas速度較慢），但在退化掃描上恢復了2到4個百分點的精度。

沒有任何工具在低品質掃描上超過86%的精度。對於擁有大量退化掃描文件檔案的企業團隊，以更高解析度重新掃描仍然是最有效的精度改進方法。

頁首/頁尾移除

頁首和頁尾——頁碼、文件標題、保密聲明、日期戳記——如果不移除會污染解析輸出。它們出現在分塊文字中，污染嵌入，並可能在RAG檢索中作為誤匹配出現。

Ertas以93.7%的頁首/頁尾移除精度最高，使用專用的後處理節點分析跨頁面的重複文字模式。出現在超過70%頁面相同位置的內容被分類為頁首/頁尾材料並被移除。

Docling的版面模型在結構上識別頁首和頁尾，但並不總是從輸出中移除它們——它們作為標記元素出現，下游消費者必須進行過濾。如果不過濾，它們將保留在解析文字中。

Marker處理頁首/頁尾的方法最不可靠，特別是對於包含實質內容（如表格腳註）與頁碼混合的頁尾。

處理速度

Marker是最快的工具，每秒6.1頁，幾乎是Docling（3.2頁/秒）的兩倍。Marker的速度優勢來自使用較小的專用模型而非單一大型版面分析模型。

Unstructured.io的hi-res策略每秒處理4.8頁。其fast策略（不帶版面分析）達到每秒12.3頁，但精度顯著降低。

Ertas最慢，每秒2.9頁，因為視覺化管道依序執行多個處理節點——品質評分、格式正規化、解析和後處理。每個節點都增加延遲。對於大型檔案的批次處理，這種權衡有利於精度而非速度。對於即時文件處理，速度可能是約束性條件。

何時使用每種工具

選擇Docling當您需要最高的表格擷取精度並且正在用Python建構自己的處理管道時。它採用MIT授權，文件完善，由IBM Research積極維護。最適合有工程能力圍繞解析函式庫進行建構的團隊。

選擇Unstructured.io當您需要超越PDF的廣泛檔案格式支援時。其超過64種格式的支援無與倫比，商業平台新增了工作流程編排。最適合處理PDF只是眾多格式之一的多樣化文件類型的團隊。

選擇Marker當處理速度是主要約束且您的文件主要是文字密集型且版面簡單時。其閱讀順序處理是最佳可用方案。最適合處理大量研究論文、文章或單欄文件的團隊。

選擇Ertas Visual Pipeline當您需要將解析作為整合資料管道的一部分，包含PII脫敏、品質評分以及下游分塊/嵌入時。視覺化節點圖介面意味著管道配置不需要程式碼，每個處理步驟都被記錄以供稽核追蹤。最適合受監管行業的團隊或向客戶交付合規資料管道的服務提供商。

本基準測試的限制

需要注意以下幾點：

語料庫偏差。 我們的500文件語料庫偏向北美英語商業文件。其他語言、文字或版面的文件效能可能不同。
版本敏感性。 所有工具都在積極開發中。測試了Docling 2.x、Unstructured 0.16和Marker 1.x。未來版本的結果可能不同。
硬體相依性。 GPU可用性顯著影響使用深度學習模型進行版面分析的工具。Docling和Unstructured hi-res模式的純CPU效能明顯較慢。
整合效應。 獨立工具基準測試無法捕獲整合成本——將解析器連接到下游管道階段的工程時間。這有利於整合解決方案，但不反映在精度數字中。

結論

不存在適用於所有用例的單一最佳PDF解析器。Docling在表格擷取精度上領先（97.9%），Marker在速度（6.1頁/秒）和多欄處理（96.1%）上領先，Unstructured在格式涵蓋上領先（超過64種類型）。

對於精度比速度更重要的企業AI訓練資料管道，基於Docling的方法（包括Ertas的視覺化管道）是最強的選擇。與Marker相比，在表格擷取方面4到6個百分點的精度優勢在數千份文件中累積——代表著數千個被正確擷取而非遺失或錯亂的表格儲存格。

對於建構具有合規要求的整合管道的團隊，管道方法提供了獨立解析無法提供的價值：提高退化掃描精度的前處理、移除污染的後處理，以及滿足監管要求的稽核日誌記錄。這種整合的吞吐量成本（2.9 vs 獨立Docling的3.2頁/秒）相對於精度和可觀察性的提升來說是適中的。

有關包括脫敏、分塊和嵌入階段在內的完整企業資料管道詳細基準測試，請參閱我們的綜合基準測試報告。