企業級 PDF 解析是從多樣化文件檔案中擷取結構化、機器可讀文字的過程——包括掃描版、原生版和混合佈局 PDF——達到適合 AI 訓練和檢索的規模與品質。它遠不止簡單的文字擷取：企業級解析必須處理表格、多欄佈局、頁首和頁尾、嵌入圖像以及數十萬份文件中的不一致格式，同時產生足夠乾淨、可直接用於訓練的輸出。

挑戰：規模化下的多樣化 PDF 類型

企業文件檔案很少是整潔或同質化的。律師事務所積累了掃描版法庭文書，旁邊是原生 PDF 合約和 Word 轉換的簡報。金融機構有機器產生的報表，旁邊是手寫標注的表單。醫療機構有打字的臨床記錄，混合著 1990 年代傳統掃描檔案。

解析的挑戰不僅在於技術多樣性，還在於數量與多樣性的疊加。700GB 規模的單一機構文件檔案可能包含：

帶嵌入文字的原生 PDF（解析最快，通常較為乾淨）
需要 OCR 的掃描版 PDF（較慢，準確性因掃描品質而異）
具有複雜表格佈局的 PDF（表格必須作為結構化資料擷取，而非線性化文字）
多欄文件（欄必須按閱讀順序讀取，而非逐行從左到右）
帶頁首、頁尾和頁碼的 PDF（必須識別並刪除的樣板文字）
在單一檔案中結合上述所有內容的混合格式文件

能夠良好處理原生 PDF 的解析器可能在掃描文件上失敗。能夠處理表格的解析器可能會線性化多欄文字。企業級要求是一個能夠正確處理所有類型、規模化執行、並為每份處理文件提供品質證據的單一管道。

逐步操作：建構企業級 PDF 解析管道

第一步：檔案匯入——批次載入 PDF

配置檔案匯入節點以從文件檔案中攝取資料：

來源路徑：文件檔案的根目錄（可以是網路共享、掛載磁碟機或本地目錄）
遞迴掃描：啟用以遍歷子目錄結構
檔案類型篩選器：對此管道設定為 .pdf；混合檔案可包含 .docx 和 .xlsx，並配置適當的解析器路由
批次大小：對於超過 100GB 的檔案，設定 1,000–2,000 個文件的批次大小。對於超過 500GB 的檔案，減少到每批 500 個以避免記憶體壓力
重複偵測預過濾：啟用基於校驗和的預過濾，在解析前跳過完全重複項（對於已知有重複的檔案，比解析後去重更快）

檔案匯入節點將檔案路徑和中繼資料傳遞給下游，而不將整個文件載入記憶體中——解析按批次延遲載入。

第二步：PDF 解析器——帶佈局感知的擷取

PDF 解析器節點使用 Docling 作為擷取後端，提供超越簡單文字擷取的佈局感知解析。

對於原生 PDF（機器產生，帶嵌入文字）：

文字直接從 PDF 的內容串流中擷取
佈局分析識別欄、表格、頁首和頁尾
表格擷取產生結構化的列/欄輸出，而非線性化的儲存格文字
閱讀順序從佈局分析中重建，而非從原始內容串流順序

對於掃描版 PDF（基於圖像，無嵌入文字）：

逐頁應用 OCR
OCR 引擎傳回字元級信心度評分
低於配置的 OCR 信心度閾值（預設 0.80）的頁面被標記為人工審核
支援多語言 OCR；配置與文件檔案主要語言相符的語言模型

每份文件的解析器輸出：

擷取的文字（完整文件，保留章節和段落結構）
表格資料（每個偵測到的表格的結構化 JSON）
中繼資料（頁數、偵測到的佈局類型、OCR 標記、每頁信心度評分）

關鍵配置選項：

表格擷取：對包含財務報表、臨床資料表格或結構化表單的檔案啟用
頁首/頁尾剝離：對在每頁上都出現樣板文字且會污染訓練資料的檔案啟用
最低頁面信心度：設定低於該值的 OCR 信心度閾值，標記而非接受頁面

第三步：去重器——移除重複內容

企業檔案多年來積累了大量重複內容：同一合約歸檔在兩個位置、同一臨床記錄從兩個系統匯出、同一財務報表分發給多個部門。

去重器節點在兩個層面運作：

精確去重——對擷取的文字內容進行校驗和比較。相同的文件（內容相同，可能檔名或路徑不同）被減少為單一副本。重複記錄連同對所有來源檔案的參照一起記錄。

近似去重——基於 MinHash 的相似性偵測。超過配置相似度閾值（預設 0.95）的文件被標記為近似重複。保留一個代表性文件；其餘的被記錄。這可以捕獲僅在中繼資料、頁碼或次要格式變化上有所不同的文件。

對於 700GB 的檔案，近似去重通常會將有效資料集大小減少 15–40%，具體取決於文件類型和機構歷史。

第四步：格式正規化器——標準化編碼和結構

來自大型文件檔案的原始解析輸出很少是一致的。格式正規化器節點應用：

編碼正規化：將所有文字轉換為 UTF-8。傳統 PDF 可能使用 Windows-1252、ISO-8859-1 或其他編碼，若未標準化會導致下游失敗。
空白字元正規化：壓縮多個空格，刪除非標準空白字元，正規化行尾符。對於訓練資料至關重要，因為空白字元變化會產生虛假的 token 多樣性。
結構正規化：應用一致的段落和章節分隔符。下游 RAG 分塊和微調管道需要一致的結構。
Unicode 正規化：應用 NFC 正規化以一致處理組合字元與分解字元表示。

第五步：品質評分器——標記低信心度擷取

品質評分器節點根據可配置的品質標準評估每份處理過的文件：

OCR 信心度評分（對於掃描文件）：按頁面文字長度加權的每頁平均信心度
擷取完整性：成功解析頁數與總頁數之比
內容密度：每頁最低詞數閾值；低於閾值的頁面可能表示解析失敗或裝飾性/僅圖像頁面
編碼有效性：存在替換字元（U+FFFD）表示編碼失敗
結構連貫性：對段落邊界格式錯誤和內容截斷的啟發式檢查

文件被分配 0.0 到 1.0 的品質評分。低於配置的接受閾值（預設 0.85）的文件被路由到審核佇列。高於閾值的文件進入分塊或匯出步驟。

品質評分器日誌成為你的證據材料：對於最終訓練資料集中的任何文件，你都可以顯示其品質評分及評估標準。

第六步：RAG 分塊器或訓練/驗證/測試拆分器

根據下游用例，將接受的文件路由到以下兩個節點之一：

RAG 分塊器——將文件拆分為檢索就緒的塊。配置：

塊大小：每塊 token 數（大多數嵌入模型常用 512 或 1024）
重疊：相鄰塊之間的 token 重疊（建議 10–15%）
邊界尊重：啟用以避免在句子中間拆分；分塊器會將塊邊界調整到句子結尾

訓練/驗證/測試拆分器——將文件集劃分為訓練、驗證和測試分割。配置：

分割比例：例如 80% 訓練 / 10% 驗證 / 10% 測試
分層抽樣：按文件類型或來源分組，確保分割具有代表性
確定性種子：設定固定隨機種子，以在管道執行中實現可重現的分割

第七步：匯出

JSONL 匯出器——每行輸出一個 JSON 物件。每個物件包含：

text：擷取並正規化的文件文字（如果使用了 RAG 分塊器則為塊文字）
source：原始檔案路徑
quality_score：品質評分器分配的評分
metadata：文件中繼資料（頁數、解析器類型、OCR 標記、表格數量）

RAG 匯出器——輸出相容向量存儲格式的塊。包含塊 ID、塊文字、文件來源和塊序列號以用於溯源重建。

CSV 匯出器——用於審核工作流程的扁平檔案輸出。適合與領域專家共享擷取內容進行品質驗證。

對比：企業使用的 PDF 解析方法

評估維度	Docling 獨立使用	Unstructured.io	Marker	Ertas（完整管道）
佈局感知解析	是	是	是	是（透過 Docling）
表格擷取	是	部分	有限	是
去重	否	否	否	內建
品質評分	否	否	否	內建
稽核追蹤	否	否	否	內建
本地部署	是	需自托管	是	是（原生桌面）
管道編排	否	否	否	視覺化畫布

Docling、Unstructured.io 和 Marker 是解析器——它們從文件中擷取文字。Ertas Data Suite 是一個管道：它協調解析與去重、品質評分、PII 去識別化（如需要）、分塊、匯出和稽核追蹤產生。這一區別在規模上很重要：解析器能良好處理一種文件類型；管道能端到端處理整個企業檔案。

規模考量：處理超過 700GB 的文件檔案

在 700GB 規模，幾個因素決定管道是在數小時內完成還是在中途當機：

記憶體管理：以批次方式處理文件，而非將整個檔案載入記憶體中。根據可用 RAM 配置檔案匯入節點的批次大小——對於 16–32GB RAM 的系統，每批 500–1000 個文件。

OCR 平行化：掃描 PDF 的 OCR 是管道瓶頸。配置 PDF 解析器使用所有可用 CPU 核心。在 16 核系統上，平行 OCR 處理將掃描 PDF 的吞吐時間比單執行緒處理減少 8–12 倍。

檢查點/恢復：對於需要多小時處理的檔案，啟用管道檢查點。如果處理被中斷，管道從最後完成的批次恢復，而不是從頭重新開始。

儲存 I/O：700GB 的輸入，JSONL 輸出可能為 50–200GB，具體取決於擷取密度。確保輸出儲存在快速本地磁碟機而非網路共享上，以避免 I/O 成為瓶頸。

進度監控：管道儀表板顯示即時吞吐量（文件/分鐘）、預計完成時間、當前批次進度以及審核佇列中的任何文件。對於大型檔案，這對於向客戶匯報進度狀態至關重要。

常見問題

解析器支援哪些 PDF 類型？

PDF 解析器處理原生 PDF（帶嵌入文字的機器產生檔案）、掃描版 PDF（需要 OCR 的圖像格式）、混合 PDF（原生內容和掃描內容的混合頁面），以及具有複雜佈局的 PDF，包括表格、多欄文字和非標準閱讀順序。它不處理受密碼保護的 PDF——這些需要在攝取前解密，必須作為預處理步驟處理。

它如何處理掃描文件？

掃描文件透過 PDF 解析器中的 OCR 層處理。OCR 引擎傳回字元級信心度評分，這些評分被彙總為每頁和每文件的信心度評分。平均 OCR 信心度低於配置閾值（預設 0.80）的文件被品質評分器標記，而不是自動接受進入輸出資料集。對於特別重要的低信心度文件，審核佇列允許人工標注員在匯出前糾正 OCR 錯誤。

我可以將 PDF 解析與 PII 去識別化鏈結起來嗎？

可以。PDF 解析器的輸出（擷取的文字）直接流入 PII 去識別化節點。一個組合管道處理每份文件的流程為：檔案匯入 → PDF 解析器 → PII 去識別化 → 品質評分器 → RAG 分塊器 → 匯出器。PII 去識別化發生在擷取的文字上，在任何匯出或分塊之前，確保去識別化內容永遠不會儲存在中間或最終輸出中。有關配置詳情，請參閱專門的 PII 去識別化管道指南。

有哪些輸出格式可用？

Data Suite 匯出到 JSONL（標準微調格式）、RAG 就緒分塊格式（用於向量資料庫攝取）、CSV（用於基於試算表的審核）和純文字（每檔案一個文件）。JSONL 和 RAG 匯出器在每條記錄中包含品質評分、來源中繼資料和處理時間戳記。管道執行日誌（與文件匯出分開）記錄對檔案中每份文件所做的每個處理決定。

企業級 PDF 解析：從原始文件到規模化結構化輸出