
企業級 PDF 解析:從原始文件到規模化結構化輸出
如何建構一個 PDF 解析管道,以處理超過 700GB 規模的掃描版、原生版和混合佈局企業文件——具備品質評分、去重和多格式匯出能力。
企業級 PDF 解析是從多樣化文件檔案中擷取結構化、機器可讀文字的過程——包括掃描版、原生版和混合佈局 PDF——達到適合 AI 訓練和檢索的規模與品質。它遠不止簡單的文字擷取:企業級解析必須處理表格、多欄佈局、頁首和頁尾、嵌入圖像以及數十萬份文件中的不一致格式,同時產生足夠乾淨、可直接用於訓練的輸出。
挑戰:規模化下的多樣化 PDF 類型
企業文件檔案很少是整潔或同質化的。律師事務所積累了掃描版法庭文書,旁邊是原生 PDF 合約和 Word 轉換的簡報。金融機構有機器產生的報表,旁邊是手寫標注的表單。醫療機構有打字的臨床記錄,混合著 1990 年代傳統掃描檔案。
解析的挑戰不僅在於技術多樣性,還在於數量與多樣性的疊加。700GB 規模的單一機構文件檔案可能包含:
- 帶嵌入文字的原生 PDF(解析最快,通常較為乾淨)
- 需要 OCR 的掃描版 PDF(較慢,準確性因掃描品質而異)
- 具有複雜表格佈局的 PDF(表格必須作為結構化資料擷取,而非線性化文字)
- 多欄文件(欄必須按閱讀順序讀取,而非逐行從左到右)
- 帶頁首、頁尾和頁碼的 PDF(必須識別並刪除的樣板文字)
- 在單一檔案中結合上述所有內容的混合格式文件
能夠良好處理原生 PDF 的解析器可能在掃描文件上失敗。能夠處理表格的解析器可能會線性化多欄文字。企業級要求是一個能夠正確處理所有類型、規模化執行、並為每份處理文件提供品質證據的單一管道。
逐步操作:建構企業級 PDF 解析管道
第一步:檔案匯入——批次載入 PDF
配置檔案匯入節點以從文件檔案中攝取資料:
- 來源路徑:文件檔案的根目錄(可以是網路共享、掛載磁碟機或本地目錄)
- 遞迴掃描:啟用以遍歷子目錄結構
- 檔案類型篩選器:對此管道設定為
.pdf;混合檔案可包含.docx和.xlsx,並配置適當的解析器路由 - 批次大小:對於超過 100GB 的檔案,設定 1,000–2,000 個文件的批次大小。對於超過 500GB 的檔案,減少到每批 500 個以避免記憶體壓力
- 重複偵測預過濾:啟用基於校驗和的預過濾,在解析前跳過完全重複項(對於已知有重複的檔案,比解析後去重更快)
檔案匯入節點將檔案路徑和中繼資料傳遞給下游,而不將整個文件載入記憶體中——解析按批次延遲載入。
第二步:PDF 解析器——帶佈局感知的擷取
PDF 解析器節點使用 Docling 作為擷取後端,提供超越簡單文字擷取的佈局感知解析。
對於原生 PDF(機器產生,帶嵌入文字):
- 文字直接從 PDF 的內容串流中擷取
- 佈局分析識別欄、表格、頁首和頁尾
- 表格擷取產生結構化的列/欄輸出,而非線性化的儲存格文字
- 閱讀順序從佈局分析中重建,而非從原始內容串流順序
對於掃描版 PDF(基於圖像,無嵌入文字):
- 逐頁應用 OCR
- OCR 引擎傳回字元級信心度評分
- 低於配置的 OCR 信心度閾值(預設 0.80)的頁面被標記為人工審核
- 支援多語言 OCR;配置與文件檔案主要語言相符的語言模型
每份文件的解析器輸出:
- 擷取的文字(完整文件,保留章節和段落結構)
- 表格資料(每個偵測到的表格的結構化 JSON)
- 中繼資料(頁數、偵測到的佈局類型、OCR 標記、每頁信心度評分)
關鍵配置選項:
- 表格擷取:對包含財務報表、臨床資料表格或結構化表單的檔案啟用
- 頁首/頁尾剝離:對在每頁上都出現樣板文字且會污染訓練資料的檔案啟用
- 最低頁面信心度:設定低於該值的 OCR 信心度閾值,標記而非接受頁面
第三步:去重器——移除重複內容
企業檔案多年來積累了大量重複內容:同一合約歸檔在兩個位置、同一臨床記錄從兩個系統匯出、同一財務報表分發給多個部門。
去重器節點在兩個層面運作:
精確去重——對擷取的文字內容進行校驗和比較。相同的文件(內容相同 ,可能檔名或路徑不同)被減少為單一副本。重複記錄連同對所有來源檔案的參照一起記錄。
近似去重——基於 MinHash 的相似性偵測。超過配置相似度閾值(預設 0.95)的文件被標記為近似重複。保留一個代表性文件;其餘的被記錄。這可以捕獲僅在中繼資料、頁碼或次要格式變化上有所不同的文件。
對於 700GB 的檔案,近似去重通常會將有效資料集大小減少 15–40%,具體取決於文件類型和機構歷史。
第四步:格式正規化器——標準化編碼和結構
來自大型文件檔案的原始解析輸出很少是一致的。格式正規化器節點應用:
- 編碼正規化:將所有文字轉換為 UTF-8。傳統 PDF 可能使用 Windows-1252、ISO-8859-1 或其他編碼,若未標準化會導致下游失敗。
- 空白字元正規化:壓縮多個空格,刪除非標準空白字元,正規化行尾符。對於訓練資料至關重要,因為空白字元變化會產生虛假的 token 多樣性。
- 結構正規化:應用一致的段落和章節分隔符。下游 RAG 分塊和微調管道需要一致的結構。
- Unicode 正規化:應用 NFC 正規化以一致處理組合字元與分解字元表示。
第五步:品質評分器——標記低信心度擷取
品質評分器節點根據可配置的品質標準評估每份處理過的文件:
- OCR 信心度評分(對於掃描文件):按頁面文字長度加權的每頁平均信心度
- 擷取完整性:成功解析頁數與總頁數之比
- 內容密度:每頁最低詞數閾值;低於閾值的頁面可能表示解析失敗或裝飾性/僅圖像頁面
- 編碼有效性:存在替換字元(U+FFFD)表示編碼失敗
- 結構連貫性:對段落邊界格式錯誤和內容截斷的啟發式檢查
文件被分配 0.0 到 1.0 的品質評分。低於配置的接受閾值(預設 0.85)的文件被路由到審核佇列。高於閾值的文件進入分塊或匯出步驟。
品質評分器日誌成為你的證據材料:對於最終訓練資料集中的任何文件,你都可以顯示其品質評分及評估標準。
第六步:RAG 分塊器或訓練/驗證/測試拆分器
根據下游用例,將接受的文件路由到以下兩個節點之一:
RAG 分塊器——將文件拆分為檢索就緒的塊。配置:
- 塊大小:每塊 token 數(大多數嵌入模型常用 512 或 1024)
- 重疊:相鄰塊之間的 token 重疊(建議 10–15%)
- 邊界尊重:啟用以避免在句子中間拆分;分塊器會將塊邊界調整到句子結尾
訓練/驗證/測試拆分器——將文件集劃分為訓練、驗證和測試分割。配置:
- 分割比例:例如 80% 訓練 / 10% 驗證 / 10% 測試
- 分層抽樣:按文件類型或來源分組,確保分割具有代表性
- 確定性種子:設定固定隨機種子,以在管道執行中實現可重現的分割
第七步:匯出
JSONL 匯出器——每行輸出一個 JSON 物件。每個物件包含:
text:擷取並正規化的文件文字(如果使用了 RAG 分塊器則為塊文字)source:原始檔案路徑quality_score:品質評分器分配的評分metadata:文件中繼資料(頁數、解析器類型、OCR 標記、表格數量)
RAG 匯出器——輸出相容向量存儲格式的塊。包含塊 ID、塊文字、文件來源和塊序列號以用於溯源重建。
CSV 匯出器——用於審核工作流程的扁平檔案輸出。適合與領域專家共享擷取內容進行品質驗證。
對比:企業使用的 PDF 解析方法
| 評估維度 | Docling 獨立使用 | Unstructured.io | Marker | Ertas(完整管道) |
|---|---|---|---|---|
| 佈局感知解析 | 是 | 是 | 是 | 是(透過 Docling) |
| 表格擷取 | 是 | 部分 | 有限 | 是 |
| 去重 | 否 | 否 | 否 | 內建 |
| 品質評分 | 否 | 否 | 否 | 內建 |
| 稽核追蹤 | 否 | 否 | 否 | 內建 |
| 本地部署 | 是 | 需自托管 | 是 | 是(原生桌面) |
| 管道編排 | 否 | 否 | 否 | 視覺化畫布 |
Docling、Unstructured.io 和 Marker 是解析器——它們從文件中擷取文字。Ertas Data Suite 是一個管道:它協調解析與去重、品質評分、PII 去識別化(如需要)、分塊、匯出和稽核追蹤產生。這一區別在規模上很重要:解析器能良好處理一種文件類型;管道能端到端處理整個企業檔案。
規模考量:處理超過 700GB 的文件檔案
在 700GB 規模,幾個因素決定管道是在數小時內完成還是在中途當機:
記憶體管理:以批次方式處理文件,而非將整個檔案載入記憶體中。根據可用 RAM 配置檔案匯入節點的批次大小——對於 16–32GB RAM 的系統,每批 500–1000 個文件。
OCR 平行化:掃描 PDF 的 OCR 是管道瓶頸。配置 PDF 解析器使用所有可用 CPU 核心。在 16 核系統上,平行 OCR 處理將掃描 PDF 的吞吐時間比單執行緒處理減少 8–12 倍。
檢查點/恢復:對於需要多小時處理的檔案,啟用管道檢查點。如果處理被中斷,管道從最後完成的批次恢復,而不是從頭重新開始。
儲存 I/O:700GB 的輸入,JSONL 輸出可能為 50–200GB,具體取決於擷取密度。確保輸出儲存在快速本地磁碟機而非網路共享上,以避免 I/O 成為瓶頸。
進度監控:管道儀表板顯示即時吞吐量(文件/分鐘)、預計完成時間、當前批次進度以及審核佇列中的任何文件。對於大型檔案,這對於向客戶匯報進度狀態至關重要。
常見問題
解析器支援哪些 PDF 類型?
PDF 解析器處理原生 PDF(帶嵌入文字的機器產生檔案)、掃描版 PDF(需要 OCR 的圖像格式)、混合 PDF(原生內容和掃描內容的混合頁面),以及具有複雜佈局的 PDF,包括表格、多欄文字和非標準閱讀順序。它不處理受密碼保護的 PDF——這些需要在攝取前解密,必須作為預處理步驟處理。
它如何處理掃描文件?
掃描文件透過 PDF 解析器中的 OCR 層處理。OCR 引擎傳回字元級信心度評分,這些評分被彙總為每頁和每文件的信心度評分。平均 OCR 信心度低於配置閾值(預設 0.80)的文件被品質評分器標記,而不是自動接受進入輸出資料集。對於特別重要的低信心度文件,審核佇列允許人工標注員在匯出前糾正 OCR 錯誤。
我可以將 PDF 解析與 PII 去識別化鏈結起來嗎?
可以。PDF 解析器的輸出(擷取的文字)直接流入 PII 去識別化節點。一個組合管道處理每份文件的流程為:檔案匯入 → PDF 解析器 → PII 去識別化 → 品質評分器 → RAG 分塊器 → 匯出器。PII 去識別化發生在擷取的文字上,在任何匯出或分塊之前,確保去識別化內容永遠不會儲存在中間或最終輸出中。有關配置詳情,請參閱專門的 PII 去識別化管道指南。
有哪些輸出格式可用?
Data Suite 匯出到 JSONL(標準微調格式)、RAG 就緒分塊格式(用於向量資料庫攝取)、CSV(用於基於試算表的審核)和純文字(每檔案一個文件)。JSONL 和 RAG 匯出器在每條記錄中包含品質評分、來源中繼資料和處理時間戳記。管道執行日誌(與文件匯出分開)記錄對檔案中每份文件所做的每個處理決定。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Data Preparation Time Estimator: How Long Does AI Data Prep Take by Document Type
A time estimation framework for AI data preparation by document type and volume. Compare manual vs automated processing times for PDFs, Word docs, Excel files, scanned documents, and more.

PDF Parsing Accuracy Benchmark: Docling vs Unstructured vs Marker vs Visual Pipeline
Head-to-head benchmark comparing PDF parsing tools for AI training data — Docling (IBM), Unstructured.io, Marker (Datalab), and Ertas's visual pipeline approach — across table extraction, multi-column layout, scanned PDFs, and processing speed.

The Long Tail of PDF Parsing Failures at Enterprise Scale
A practical taxonomy of PDF parsing failures in production RAG pipelines — malformed headers, scanned rotations, embedded fonts, password-protected files, and corrupted metadata — with detection and recovery strategies.