Back to blog
    準備合成解析管線:2026 年文件處理的新方法
    synthetic-parsingdocument-processingpipeline2026data-preparationsegment:enterprise

    準備合成解析管線:2026 年文件處理的新方法

    2026 年的文件處理不再是單一模型的工作。合成解析管線將文件拆分成多個部分,並將每個部分路由至專門的模型。以下是如何為這種架構準備資料。

    EErtas Team·

    文件處理曾經是單一模型的工作。把 PDF 送入 OCR 引擎,取出文字。也許同時執行表格提取器。再手動將輸出拼接在一起。

    這個方法在 2024 年左右到達了天花板。企業文件過於複雜——一份建設規格書包含敘述性文字、巢狀表格中的工程量清單、標有尺寸的技術圖面、顯示專案時程的圖表,以及連結所有這些的交叉引用。沒有任何單一模型能夠很好地處理所有這些內容類型。

    2026 年的方法是合成解析管線:一種多階段架構,其中文件被分解為多個組件,每個組件被路由至專門的模型,輸出再重新組合成單一的結構化表示。「合成」是因為最終輸出是由多個模型的貢獻所合成的,而非由單一模型產生的。

    本文著重於資料準備面:如何建立為管線每個階段提供動力的訓練資料。

    管線架構

    合成解析管線有四個階段,每個階段都需要自己的訓練資料。

    第一階段:版面偵測器

    版面偵測器檢查每一頁並識別區域:文字在哪裡?表格在哪裡?圖形在哪裡?頁首和頁尾在哪裡?

    輸出是一組邊界框,每個框都標有區域類型:text_blocktablefigureheaderfootercaptionpage_numbersidebarwatermark

    這是一個物件偵測問題,由 LayoutLMv3、DiT(Document Image Transformer)或在文件版面上訓練的 YOLO 變體等模型解決。

    第二階段:文字提取器

    版面偵測器識別的文字區域被送至文字提取階段。這個階段從每個文字區域產生乾淨、結構化的文字——處理字型、欄、閱讀順序和特殊字符。

    第三階段:表格解析器

    表格區域送至專門的表格解析模型,該模型理解行/列結構、合併儲存格、多層標題和跨頁表格。

    第四階段:圖像分析器

    圖形區域送至視覺模型,該模型對圖形類型進行分類(圖表、示意圖、照片、繪圖)並提取相關的結構化資訊。

    組合器

    組合器將所有階段的輸出合併成單一的結構化文件表示,解析交叉引用並維護邏輯文件結構。

    每個階段都可以透過在特定領域的資料上微調來改善。以下是每個階段的訓練資料準備方式。

    版面偵測器的資料準備

    所需內容

    已標注的文件頁面,其中每個區域都用邊界框識別並分類。這是一個物件偵測標注任務——與用於在自然圖像上訓練 YOLO 模型的標注類型相同,但應用於文件頁面。

    標注工作流程

    步驟一:選擇具代表性的頁面。 不要標注每份文件的每一頁。選擇 200-500 頁,代表管線將遇到的版面多樣性。包括:

    • 文字密集頁面(報告、敘述文字)
    • 表格密集頁面(財務報表、工程量清單)
    • 混合頁面(帶周圍文字和標題的表格)
    • 圖形頁面(技術圖面、圖表)
    • 複雜頁面(多欄版面、側邊欄、巢狀元素)

    步驟二:定義區域類別。 企業文件的實用類別集:

    • text_block:連續的散文(段落、項目符號列表)
    • table:具有行/列結構的表格資料
    • figure:圖像、圖表、繪圖、示意圖
    • header:頁首、節標題
    • footer:頁尾、腳注
    • caption:標記圖形或表格的文字
    • page_number:頁碼
    • sidebar:側欄或標注框中的內容
    • watermark:要忽略的背景文字或圖像

    從較少的類別開始,只有在管線需要區分時才新增更多。對企業文件而言,九個類別通常已足夠。

    步驟三:標注邊界框。 對每一頁,在每個區域周圍繪製邊界框並指定適當的類別。使用邊界框標注工具(CVAT、LabelImg 或支援物件偵測標注的平台)。

    主要標注指南:

    • 框應該緊密——最小的空白填充
    • 重疊區域應標注為最具體的類型(與圖形重疊的標題得到 caption 框,而非 figure 框)
    • 多欄頁面每欄得到單獨的框
    • 跨頁的表格在每頁都得到一個框

    步驟四:品質驗證。 讓第二位標注者審查 20% 的標注。區域分類的標注者間一致性應超過 90%,邊界框座標應在 5% 以內。

    規模要求

    對於微調至您特定文件類型的版面偵測器:

    • 最低: 200 頁標注頁面。區域分類準確率達 88-92%。
    • 建議: 500 頁標注頁面。準確率達 93-96%。
    • 最佳: 1,000 頁以上標注頁面。在一致的文件類型上達 96-98% 準確率。

    如果您的文件使用一致的範本(相同的報告格式、相同的發票版面),200 頁通常就足夠了。對於異質的文件集合(多個供應商、多種格式),目標應是 500 頁以上。

    文字提取器的資料準備

    所需內容

    每個文字區域的真實文字——應從頁面該區域提取的正確純文字。

    建立真實文字

    對於數位 PDF(含文字層): PDF 的嵌入文字可作為真實文字,但需要驗證。嵌入文字有時會有編碼錯誤、不正確的閱讀順序或缺少字符。

    流程:以程式方式從 PDF 提取文字,手動審查 50-100 個區域的樣本,並修復任何系統性提取錯誤。如果嵌入文字一致正確(字符準確率超過 98%),將其作為真實文字使用。如果不是,則需要手動轉錄。

    對於掃描文件(僅含圖像): 真實文字必須由人工轉錄建立。這非常耗費人力,但對於訓練針對您特定文件類型的準確 OCR 模型是必要的。

    時間估算:手動轉錄一個文字區域需要 1-3 分鐘,取決於長度。對於 500 頁標注頁面,平均每頁有 5 個文字區域,即 2,500 個區域 × 2 分鐘 = 約 83 小時。分散在一個團隊中,這是 2-3 週的工作。

    對於特殊字型或符號: 如果您的文件使用特定領域的符號(工程符號、數學公式、音樂符號),請確保這些符號在真實文字中正確表示。標準 OCR 模型通常無法處理特殊符號——您的微調模型可以學習它們,但前提是真實文字包含它們。

    規模要求

    • 最低: 500 個有真實文字的文字區域
    • 建議: 2,000 個文字區域
    • 最佳: 5,000 個以上的文字區域,以在各種字型和版面上達到最高準確率

    表格解析器的資料準備

    所需內容

    每個表格的結構化真實文字——正確的行/列結構,包含儲存格值、合併儲存格資訊和標題關係。

    挑戰

    表格解析的真實文字是管線中最複雜的標注。單一表格需要:

    • 識別行數和列數
    • 將每個儲存格的內容映射到其行/列位置
    • 標記合併儲存格的跨度(例如,第 1 行中跨越第 2-4 列的儲存格)
    • 識別標題行與資料行
    • 處理巢狀標題(多層列結構)
    • 連接跨頁表格

    這比文字轉錄或邊界框繪製每個標注需要多得多的工作。

    標注工作流程

    步驟一:識別文件中的表格類型。 常見的企業表格類型:

    • 簡單表格(規則格線,無合併儲存格)
    • 有合併標題儲存格的表格
    • 有巢狀行/列標題的表格
    • 有多行儲存格的表格
    • 跨越多頁的表格
    • 有小計和總計的表格

    對您的表格進行分類,以確保涵蓋所有類型。

    步驟二:定義輸出格式。 真實文字應採用捕捉所有表格關係的結構化格式。一個實用格式:

    {
      "rows": 15,
      "columns": 5,
      "headers": [
        {"text": "Item", "row": 0, "col": 0, "rowspan": 1, "colspan": 1},
        {"text": "Description", "row": 0, "col": 1, "rowspan": 1, "colspan": 1},
        {"text": "Specifications", "row": 0, "col": 2, "rowspan": 1, "colspan": 3}
      ],
      "cells": [
        {"text": "1.01", "row": 1, "col": 0},
        {"text": "Concrete Grade 30", "row": 1, "col": 1},
        ...
      ]
    }

    步驟三:標注表格。 對每個表格,產生結構化的真實文字。使用支援合併儲存格和多層標題的表格標注工具——或匯出到試算表進行手動結構化。

    時間估算:簡單表格每個需要 5-10 分鐘。有合併儲存格和巢狀標題的複雜表格需要 15-30 分鐘。請相應規劃預算。

    步驟四:驗證。 往返驗證:將結構化的真實文字重新渲染成視覺表格,並與原件進行比較。差異表示標注錯誤。

    規模要求

    由於結構複雜性,表格解析比版面偵測需要更多訓練資料:

    • 最低: 300 個有真實文字的表格。處理簡單的表格結構。
    • 建議: 1,000 個表格。處理合併儲存格和標準標題結構。
    • 最佳: 2,000 個以上的表格。處理複雜的巢狀標題、跨頁表格和不規則結構。

    每個在步驟一中識別的表格類型至少包含 50 個示例。

    圖像分析器的資料準備

    所需內容

    對每個圖形,需要兩種類型的真實文字:

    1. 分類: 圖形是什麼類型?(長條圖、折線圖、流程示意圖、技術圖面、照片、地圖)
    2. 結構化提取: 圖形包含什麼資訊?

    分類真實文字

    將每個圖形分類到其子類別。這是一個簡單的圖像分類任務,每個類別需要 20-50 個示例。

    對企業文件,典型類別:

    • 長條圖
    • 折線圖
    • 圓餅圖
    • 流程示意圖
    • 組織圖
    • 技術圖面
    • 平面圖 / 場地圖
    • 照片
    • 標誌 / 裝飾圖像

    提取真實文字

    對於含資料的圖形(圖表和示意圖),建立結構化的真實文字:

    圖表: 提取資料序列。顯示季度收入的長條圖應產生:[{"quarter": "Q1", "revenue": 1200000}, {"quarter": "Q2", "revenue": 1450000}, ...]

    流程示意圖: 提取節點和邊。{"nodes": ["Start", "Review", "Approve", "Reject", "End"], "edges": [["Start", "Review"], ["Review", "Approve"], ["Review", "Reject"], ...]}

    技術圖面: 提取關鍵尺寸、標籤和標注。

    時間估算:圖表資料提取每個需要 3-5 分鐘。示意圖提取需要 5-15 分鐘,取決於複雜性。

    規模要求

    • 分類: 每種圖形類型 20-50 個示例(共 150-400 個)
    • 圖表資料提取: 100-300 個有真實文字的圖表
    • 示意圖提取: 50-200 個有真實文字的示意圖

    圖像分析通常比表格解析需要更少的訓練資料,因為預訓練的視覺模型已經理解了圖表和示意圖結構——微調添加的是特定領域的校準。

    端對端品質驗證

    為每個階段準備訓練資料後,對完整管線進行端對端驗證:

    步驟一: 通過完整管線處理 50 份保留文件。

    步驟二: 將管線的結構化輸出與這些文件的手動建立的真實文字進行比較。

    步驟三: 測量每個階段的準確率:

    • 版面偵測:區域分類準確率和邊界框 IoU
    • 文字提取:字符級準確率
    • 表格解析:儲存格級準確率
    • 圖像分析:分類準確率和提取準確率

    步驟四: 找出最弱的階段。最弱的階段制約了整個管線的準確率。如果版面偵測的準確率為 97%,但表格解析為 82%,那麼改善表格解析訓練資料能帶來最高的投資回報。

    步驟五: 迭代。為最弱的階段添加更多訓練資料,重新訓練,重新評估。重複直到所有階段達到您的準確率目標。

    時程和資源

    對於處理建設文件的典型企業管線:

    階段標注量時間估算人員
    版面偵測器500 頁2-3 週1-2 名標注人員
    文字提取器2,000 個區域2-3 週2-3 名標注人員
    表格解析器1,000 個表格3-4 週2 名標注人員 + 領域專家
    圖像分析器300 個圖形1-2 週1 名標注人員 + 領域專家
    端對端驗證50 份文件1 週1 名 ML 工程師 + 領域專家

    總計:8-12 週,團隊由 3-4 人組成。各階段可以重疊——文字提取器標注可以在版面偵測器標注仍在進行時開始。

    Ertas Data Suite 支援多階段管線資料準備,提供每個階段的標注工作流程——版面偵測的邊界框標注、文字提取的文字轉錄、表格解析的結構化表格標注,以及圖像分析的圖形分類。平台維護各階段之間的關係(哪些文字區域來自哪些頁面、哪些表格對應哪些邊界框),提供合成解析管線所需的端對端可追溯性。


    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    延伸閱讀

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading