Back to blog
    企業級 PDF 解析:從原始文件到規模化結構化輸出
    pdf-parsingdata-preparationdocument-processingenterprisestructured-data

    企業級 PDF 解析:從原始文件到規模化結構化輸出

    如何建構一個 PDF 解析管道,以處理超過 700GB 規模的掃描版、原生版和混合佈局企業文件——具備品質評分、去重和多格式匯出能力。

    EErtas Team·

    企業級 PDF 解析是從多樣化文件檔案中擷取結構化、機器可讀文字的過程——包括掃描版、原生版和混合佈局 PDF——達到適合 AI 訓練和檢索的規模與品質。它遠不止簡單的文字擷取:企業級解析必須處理表格、多欄佈局、頁首和頁尾、嵌入圖像以及數十萬份文件中的不一致格式,同時產生足夠乾淨、可直接用於訓練的輸出。

    挑戰:規模化下的多樣化 PDF 類型

    企業文件檔案很少是整潔或同質化的。律師事務所積累了掃描版法庭文書,旁邊是原生 PDF 合約和 Word 轉換的簡報。金融機構有機器產生的報表,旁邊是手寫標注的表單。醫療機構有打字的臨床記錄,混合著 1990 年代傳統掃描檔案。

    解析的挑戰不僅在於技術多樣性,還在於數量與多樣性的疊加。700GB 規模的單一機構文件檔案可能包含:

    • 帶嵌入文字的原生 PDF(解析最快,通常較為乾淨)
    • 需要 OCR 的掃描版 PDF(較慢,準確性因掃描品質而異)
    • 具有複雜表格佈局的 PDF(表格必須作為結構化資料擷取,而非線性化文字)
    • 多欄文件(欄必須按閱讀順序讀取,而非逐行從左到右)
    • 帶頁首、頁尾和頁碼的 PDF(必須識別並刪除的樣板文字)
    • 在單一檔案中結合上述所有內容的混合格式文件

    能夠良好處理原生 PDF 的解析器可能在掃描文件上失敗。能夠處理表格的解析器可能會線性化多欄文字。企業級要求是一個能夠正確處理所有類型、規模化執行、並為每份處理文件提供品質證據的單一管道。

    逐步操作:建構企業級 PDF 解析管道

    第一步:檔案匯入——批次載入 PDF

    配置檔案匯入節點以從文件檔案中攝取資料:

    • 來源路徑:文件檔案的根目錄(可以是網路共享、掛載磁碟機或本地目錄)
    • 遞迴掃描:啟用以遍歷子目錄結構
    • 檔案類型篩選器:對此管道設定為 .pdf;混合檔案可包含 .docx.xlsx,並配置適當的解析器路由
    • 批次大小:對於超過 100GB 的檔案,設定 1,000–2,000 個文件的批次大小。對於超過 500GB 的檔案,減少到每批 500 個以避免記憶體壓力
    • 重複偵測預過濾:啟用基於校驗和的預過濾,在解析前跳過完全重複項(對於已知有重複的檔案,比解析後去重更快)

    檔案匯入節點將檔案路徑和中繼資料傳遞給下游,而不將整個文件載入記憶體中——解析按批次延遲載入。

    第二步:PDF 解析器——帶佈局感知的擷取

    PDF 解析器節點使用 Docling 作為擷取後端,提供超越簡單文字擷取的佈局感知解析。

    對於原生 PDF(機器產生,帶嵌入文字):

    • 文字直接從 PDF 的內容串流中擷取
    • 佈局分析識別欄、表格、頁首和頁尾
    • 表格擷取產生結構化的列/欄輸出,而非線性化的儲存格文字
    • 閱讀順序從佈局分析中重建,而非從原始內容串流順序

    對於掃描版 PDF(基於圖像,無嵌入文字):

    • 逐頁應用 OCR
    • OCR 引擎傳回字元級信心度評分
    • 低於配置的 OCR 信心度閾值(預設 0.80)的頁面被標記為人工審核
    • 支援多語言 OCR;配置與文件檔案主要語言相符的語言模型

    每份文件的解析器輸出

    • 擷取的文字(完整文件,保留章節和段落結構)
    • 表格資料(每個偵測到的表格的結構化 JSON)
    • 中繼資料(頁數、偵測到的佈局類型、OCR 標記、每頁信心度評分)

    關鍵配置選項:

    • 表格擷取:對包含財務報表、臨床資料表格或結構化表單的檔案啟用
    • 頁首/頁尾剝離:對在每頁上都出現樣板文字且會污染訓練資料的檔案啟用
    • 最低頁面信心度:設定低於該值的 OCR 信心度閾值,標記而非接受頁面

    第三步:去重器——移除重複內容

    企業檔案多年來積累了大量重複內容:同一合約歸檔在兩個位置、同一臨床記錄從兩個系統匯出、同一財務報表分發給多個部門。

    去重器節點在兩個層面運作:

    精確去重——對擷取的文字內容進行校驗和比較。相同的文件(內容相同,可能檔名或路徑不同)被減少為單一副本。重複記錄連同對所有來源檔案的參照一起記錄。

    近似去重——基於 MinHash 的相似性偵測。超過配置相似度閾值(預設 0.95)的文件被標記為近似重複。保留一個代表性文件;其餘的被記錄。這可以捕獲僅在中繼資料、頁碼或次要格式變化上有所不同的文件。

    對於 700GB 的檔案,近似去重通常會將有效資料集大小減少 15–40%,具體取決於文件類型和機構歷史。

    第四步:格式正規化器——標準化編碼和結構

    來自大型文件檔案的原始解析輸出很少是一致的。格式正規化器節點應用:

    • 編碼正規化:將所有文字轉換為 UTF-8。傳統 PDF 可能使用 Windows-1252、ISO-8859-1 或其他編碼,若未標準化會導致下游失敗。
    • 空白字元正規化:壓縮多個空格,刪除非標準空白字元,正規化行尾符。對於訓練資料至關重要,因為空白字元變化會產生虛假的 token 多樣性。
    • 結構正規化:應用一致的段落和章節分隔符。下游 RAG 分塊和微調管道需要一致的結構。
    • Unicode 正規化:應用 NFC 正規化以一致處理組合字元與分解字元表示。

    第五步:品質評分器——標記低信心度擷取

    品質評分器節點根據可配置的品質標準評估每份處理過的文件:

    • OCR 信心度評分(對於掃描文件):按頁面文字長度加權的每頁平均信心度
    • 擷取完整性:成功解析頁數與總頁數之比
    • 內容密度:每頁最低詞數閾值;低於閾值的頁面可能表示解析失敗或裝飾性/僅圖像頁面
    • 編碼有效性:存在替換字元(U+FFFD)表示編碼失敗
    • 結構連貫性:對段落邊界格式錯誤和內容截斷的啟發式檢查

    文件被分配 0.0 到 1.0 的品質評分。低於配置的接受閾值(預設 0.85)的文件被路由到審核佇列。高於閾值的文件進入分塊或匯出步驟。

    品質評分器日誌成為你的證據材料:對於最終訓練資料集中的任何文件,你都可以顯示其品質評分及評估標準。

    第六步:RAG 分塊器或訓練/驗證/測試拆分器

    根據下游用例,將接受的文件路由到以下兩個節點之一:

    RAG 分塊器——將文件拆分為檢索就緒的塊。配置:

    • 塊大小:每塊 token 數(大多數嵌入模型常用 512 或 1024)
    • 重疊:相鄰塊之間的 token 重疊(建議 10–15%)
    • 邊界尊重:啟用以避免在句子中間拆分;分塊器會將塊邊界調整到句子結尾

    訓練/驗證/測試拆分器——將文件集劃分為訓練、驗證和測試分割。配置:

    • 分割比例:例如 80% 訓練 / 10% 驗證 / 10% 測試
    • 分層抽樣:按文件類型或來源分組,確保分割具有代表性
    • 確定性種子:設定固定隨機種子,以在管道執行中實現可重現的分割

    第七步:匯出

    JSONL 匯出器——每行輸出一個 JSON 物件。每個物件包含:

    • text:擷取並正規化的文件文字(如果使用了 RAG 分塊器則為塊文字)
    • source:原始檔案路徑
    • quality_score:品質評分器分配的評分
    • metadata:文件中繼資料(頁數、解析器類型、OCR 標記、表格數量)

    RAG 匯出器——輸出相容向量存儲格式的塊。包含塊 ID、塊文字、文件來源和塊序列號以用於溯源重建。

    CSV 匯出器——用於審核工作流程的扁平檔案輸出。適合與領域專家共享擷取內容進行品質驗證。

    對比:企業使用的 PDF 解析方法

    評估維度Docling 獨立使用Unstructured.ioMarkerErtas(完整管道)
    佈局感知解析是(透過 Docling)
    表格擷取部分有限
    去重內建
    品質評分內建
    稽核追蹤內建
    本地部署需自托管是(原生桌面)
    管道編排視覺化畫布

    Docling、Unstructured.io 和 Marker 是解析器——它們從文件中擷取文字。Ertas Data Suite 是一個管道:它協調解析與去重、品質評分、PII 去識別化(如需要)、分塊、匯出和稽核追蹤產生。這一區別在規模上很重要:解析器能良好處理一種文件類型;管道能端到端處理整個企業檔案。

    規模考量:處理超過 700GB 的文件檔案

    在 700GB 規模,幾個因素決定管道是在數小時內完成還是在中途當機:

    記憶體管理:以批次方式處理文件,而非將整個檔案載入記憶體中。根據可用 RAM 配置檔案匯入節點的批次大小——對於 16–32GB RAM 的系統,每批 500–1000 個文件。

    OCR 平行化:掃描 PDF 的 OCR 是管道瓶頸。配置 PDF 解析器使用所有可用 CPU 核心。在 16 核系統上,平行 OCR 處理將掃描 PDF 的吞吐時間比單執行緒處理減少 8–12 倍。

    檢查點/恢復:對於需要多小時處理的檔案,啟用管道檢查點。如果處理被中斷,管道從最後完成的批次恢復,而不是從頭重新開始。

    儲存 I/O:700GB 的輸入,JSONL 輸出可能為 50–200GB,具體取決於擷取密度。確保輸出儲存在快速本地磁碟機而非網路共享上,以避免 I/O 成為瓶頸。

    進度監控:管道儀表板顯示即時吞吐量(文件/分鐘)、預計完成時間、當前批次進度以及審核佇列中的任何文件。對於大型檔案,這對於向客戶匯報進度狀態至關重要。

    常見問題

    解析器支援哪些 PDF 類型?

    PDF 解析器處理原生 PDF(帶嵌入文字的機器產生檔案)、掃描版 PDF(需要 OCR 的圖像格式)、混合 PDF(原生內容和掃描內容的混合頁面),以及具有複雜佈局的 PDF,包括表格、多欄文字和非標準閱讀順序。它不處理受密碼保護的 PDF——這些需要在攝取前解密,必須作為預處理步驟處理。

    它如何處理掃描文件?

    掃描文件透過 PDF 解析器中的 OCR 層處理。OCR 引擎傳回字元級信心度評分,這些評分被彙總為每頁和每文件的信心度評分。平均 OCR 信心度低於配置閾值(預設 0.80)的文件被品質評分器標記,而不是自動接受進入輸出資料集。對於特別重要的低信心度文件,審核佇列允許人工標注員在匯出前糾正 OCR 錯誤。

    我可以將 PDF 解析與 PII 去識別化鏈結起來嗎?

    可以。PDF 解析器的輸出(擷取的文字)直接流入 PII 去識別化節點。一個組合管道處理每份文件的流程為:檔案匯入 → PDF 解析器 → PII 去識別化 → 品質評分器 → RAG 分塊器 → 匯出器。PII 去識別化發生在擷取的文字上,在任何匯出或分塊之前,確保去識別化內容永遠不會儲存在中間或最終輸出中。有關配置詳情,請參閱專門的 PII 去識別化管道指南。

    有哪些輸出格式可用?

    Data Suite 匯出到 JSONL(標準微調格式)、RAG 就緒分塊格式(用於向量資料庫攝取)、CSV(用於基於試算表的審核)和純文字(每檔案一個文件)。JSONL 和 RAG 匯出器在每條記錄中包含品質評分、來源中繼資料和處理時間戳記。管道執行日誌(與文件匯出分開)記錄對檔案中每份文件所做的每個處理決定。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading