準備合成解析管線：2026 年文件處理的新方法

文件處理曾經是單一模型的工作。把 PDF 送入 OCR 引擎，取出文字。也許同時執行表格提取器。再手動將輸出拼接在一起。

這個方法在 2024 年左右到達了天花板。企業文件過於複雜——一份建設規格書包含敘述性文字、巢狀表格中的工程量清單、標有尺寸的技術圖面、顯示專案時程的圖表，以及連結所有這些的交叉引用。沒有任何單一模型能夠很好地處理所有這些內容類型。

2026 年的方法是合成解析管線：一種多階段架構，其中文件被分解為多個組件，每個組件被路由至專門的模型，輸出再重新組合成單一的結構化表示。「合成」是因為最終輸出是由多個模型的貢獻所合成的，而非由單一模型產生的。

本文著重於資料準備面：如何建立為管線每個階段提供動力的訓練資料。

管線架構

合成解析管線有四個階段，每個階段都需要自己的訓練資料。

第一階段：版面偵測器

版面偵測器檢查每一頁並識別區域：文字在哪裡？表格在哪裡？圖形在哪裡？頁首和頁尾在哪裡？

輸出是一組邊界框，每個框都標有區域類型：text_block、table、figure、header、footer、caption、page_number、sidebar、watermark。

這是一個物件偵測問題，由 LayoutLMv3、DiT（Document Image Transformer）或在文件版面上訓練的 YOLO 變體等模型解決。

第二階段：文字提取器

版面偵測器識別的文字區域被送至文字提取階段。這個階段從每個文字區域產生乾淨、結構化的文字——處理字型、欄、閱讀順序和特殊字符。

第三階段：表格解析器

表格區域送至專門的表格解析模型，該模型理解行/列結構、合併儲存格、多層標題和跨頁表格。

第四階段：圖像分析器

圖形區域送至視覺模型，該模型對圖形類型進行分類（圖表、示意圖、照片、繪圖）並提取相關的結構化資訊。

組合器

組合器將所有階段的輸出合併成單一的結構化文件表示，解析交叉引用並維護邏輯文件結構。

每個階段都可以透過在特定領域的資料上微調來改善。以下是每個階段的訓練資料準備方式。

版面偵測器的資料準備

所需內容

已標注的文件頁面，其中每個區域都用邊界框識別並分類。這是一個物件偵測標注任務——與用於在自然圖像上訓練 YOLO 模型的標注類型相同，但應用於文件頁面。

標注工作流程

步驟一：選擇具代表性的頁面。 不要標注每份文件的每一頁。選擇 200-500 頁，代表管線將遇到的版面多樣性。包括：

文字密集頁面（報告、敘述文字）
表格密集頁面（財務報表、工程量清單）
混合頁面（帶周圍文字和標題的表格）
圖形頁面（技術圖面、圖表）
複雜頁面（多欄版面、側邊欄、巢狀元素）

步驟二：定義區域類別。 企業文件的實用類別集：

text_block：連續的散文（段落、項目符號列表）
table：具有行/列結構的表格資料
figure：圖像、圖表、繪圖、示意圖
header：頁首、節標題
footer：頁尾、腳注
caption：標記圖形或表格的文字
page_number：頁碼
sidebar：側欄或標注框中的內容
watermark：要忽略的背景文字或圖像

從較少的類別開始，只有在管線需要區分時才新增更多。對企業文件而言，九個類別通常已足夠。

步驟三：標注邊界框。 對每一頁，在每個區域周圍繪製邊界框並指定適當的類別。使用邊界框標注工具（CVAT、LabelImg 或支援物件偵測標注的平台）。

主要標注指南：

框應該緊密——最小的空白填充
重疊區域應標注為最具體的類型（與圖形重疊的標題得到 caption 框，而非 figure 框）
多欄頁面每欄得到單獨的框
跨頁的表格在每頁都得到一個框

步驟四：品質驗證。 讓第二位標注者審查 20% 的標注。區域分類的標注者間一致性應超過 90%，邊界框座標應在 5% 以內。

規模要求

對於微調至您特定文件類型的版面偵測器：

最低： 200 頁標注頁面。區域分類準確率達 88-92%。
建議： 500 頁標注頁面。準確率達 93-96%。
最佳： 1,000 頁以上標注頁面。在一致的文件類型上達 96-98% 準確率。

如果您的文件使用一致的範本（相同的報告格式、相同的發票版面），200 頁通常就足夠了。對於異質的文件集合（多個供應商、多種格式），目標應是 500 頁以上。

文字提取器的資料準備

所需內容

每個文字區域的真實文字——應從頁面該區域提取的正確純文字。

建立真實文字

對於數位 PDF（含文字層）： PDF 的嵌入文字可作為真實文字，但需要驗證。嵌入文字有時會有編碼錯誤、不正確的閱讀順序或缺少字符。

流程：以程式方式從 PDF 提取文字，手動審查 50-100 個區域的樣本，並修復任何系統性提取錯誤。如果嵌入文字一致正確（字符準確率超過 98%），將其作為真實文字使用。如果不是，則需要手動轉錄。

對於掃描文件（僅含圖像）： 真實文字必須由人工轉錄建立。這非常耗費人力，但對於訓練針對您特定文件類型的準確 OCR 模型是必要的。

時間估算：手動轉錄一個文字區域需要 1-3 分鐘，取決於長度。對於 500 頁標注頁面，平均每頁有 5 個文字區域，即 2,500 個區域 × 2 分鐘 = 約 83 小時。分散在一個團隊中，這是 2-3 週的工作。

對於特殊字型或符號： 如果您的文件使用特定領域的符號（工程符號、數學公式、音樂符號），請確保這些符號在真實文字中正確表示。標準 OCR 模型通常無法處理特殊符號——您的微調模型可以學習它們，但前提是真實文字包含它們。

規模要求

最低： 500 個有真實文字的文字區域
建議： 2,000 個文字區域
最佳： 5,000 個以上的文字區域，以在各種字型和版面上達到最高準確率

表格解析器的資料準備

所需內容

每個表格的結構化真實文字——正確的行/列結構，包含儲存格值、合併儲存格資訊和標題關係。

挑戰

表格解析的真實文字是管線中最複雜的標注。單一表格需要：

識別行數和列數
將每個儲存格的內容映射到其行/列位置
標記合併儲存格的跨度（例如，第 1 行中跨越第 2-4 列的儲存格）
識別標題行與資料行
處理巢狀標題（多層列結構）
連接跨頁表格

這比文字轉錄或邊界框繪製每個標注需要多得多的工作。

標注工作流程

步驟一：識別文件中的表格類型。 常見的企業表格類型：

簡單表格（規則格線，無合併儲存格）
有合併標題儲存格的表格
有巢狀行/列標題的表格
有多行儲存格的表格
跨越多頁的表格
有小計和總計的表格

對您的表格進行分類，以確保涵蓋所有類型。

步驟二：定義輸出格式。 真實文字應採用捕捉所有表格關係的結構化格式。一個實用格式：

{
  "rows": 15,
  "columns": 5,
  "headers": [
    {"text": "Item", "row": 0, "col": 0, "rowspan": 1, "colspan": 1},
    {"text": "Description", "row": 0, "col": 1, "rowspan": 1, "colspan": 1},
    {"text": "Specifications", "row": 0, "col": 2, "rowspan": 1, "colspan": 3}
  ],
  "cells": [
    {"text": "1.01", "row": 1, "col": 0},
    {"text": "Concrete Grade 30", "row": 1, "col": 1},
    ...
  ]
}

步驟三：標注表格。 對每個表格，產生結構化的真實文字。使用支援合併儲存格和多層標題的表格標注工具——或匯出到試算表進行手動結構化。

時間估算：簡單表格每個需要 5-10 分鐘。有合併儲存格和巢狀標題的複雜表格需要 15-30 分鐘。請相應規劃預算。

步驟四：驗證。 往返驗證：將結構化的真實文字重新渲染成視覺表格，並與原件進行比較。差異表示標注錯誤。

規模要求

由於結構複雜性，表格解析比版面偵測需要更多訓練資料：

最低： 300 個有真實文字的表格。處理簡單的表格結構。
建議： 1,000 個表格。處理合併儲存格和標準標題結構。
最佳： 2,000 個以上的表格。處理複雜的巢狀標題、跨頁表格和不規則結構。

每個在步驟一中識別的表格類型至少包含 50 個示例。

圖像分析器的資料準備

所需內容

對每個圖形，需要兩種類型的真實文字：

分類： 圖形是什麼類型？（長條圖、折線圖、流程示意圖、技術圖面、照片、地圖）
結構化提取： 圖形包含什麼資訊？

分類真實文字

將每個圖形分類到其子類別。這是一個簡單的圖像分類任務，每個類別需要 20-50 個示例。

對企業文件，典型類別：

長條圖
折線圖
圓餅圖
流程示意圖
組織圖
技術圖面
平面圖 / 場地圖
照片
標誌 / 裝飾圖像

提取真實文字

對於含資料的圖形（圖表和示意圖），建立結構化的真實文字：

圖表： 提取資料序列。顯示季度收入的長條圖應產生：[{"quarter": "Q1", "revenue": 1200000}, {"quarter": "Q2", "revenue": 1450000}, ...]

流程示意圖： 提取節點和邊。{"nodes": ["Start", "Review", "Approve", "Reject", "End"], "edges": [["Start", "Review"], ["Review", "Approve"], ["Review", "Reject"], ...]}

技術圖面： 提取關鍵尺寸、標籤和標注。

時間估算：圖表資料提取每個需要 3-5 分鐘。示意圖提取需要 5-15 分鐘，取決於複雜性。

規模要求

分類： 每種圖形類型 20-50 個示例（共 150-400 個）
圖表資料提取： 100-300 個有真實文字的圖表
示意圖提取： 50-200 個有真實文字的示意圖

圖像分析通常比表格解析需要更少的訓練資料，因為預訓練的視覺模型已經理解了圖表和示意圖結構——微調添加的是特定領域的校準。

端對端品質驗證

為每個階段準備訓練資料後，對完整管線進行端對端驗證：

步驟一： 通過完整管線處理 50 份保留文件。

步驟二： 將管線的結構化輸出與這些文件的手動建立的真實文字進行比較。

步驟三： 測量每個階段的準確率：

版面偵測：區域分類準確率和邊界框 IoU
文字提取：字符級準確率
表格解析：儲存格級準確率
圖像分析：分類準確率和提取準確率

步驟四： 找出最弱的階段。最弱的階段制約了整個管線的準確率。如果版面偵測的準確率為 97%，但表格解析為 82%，那麼改善表格解析訓練資料能帶來最高的投資回報。

步驟五： 迭代。為最弱的階段添加更多訓練資料，重新訓練，重新評估。重複直到所有階段達到您的準確率目標。

時程和資源

對於處理建設文件的典型企業管線：

階段	標注量	時間估算	人員
版面偵測器	500 頁	2-3 週	1-2 名標注人員
文字提取器	2,000 個區域	2-3 週	2-3 名標注人員
表格解析器	1,000 個表格	3-4 週	2 名標注人員 + 領域專家
圖像分析器	300 個圖形	1-2 週	1 名標注人員 + 領域專家
端對端驗證	50 份文件	1 週	1 名 ML 工程師 + 領域專家

總計：8-12 週，團隊由 3-4 人組成。各階段可以重疊——文字提取器標注可以在版面偵測器標注仍在進行時開始。

Ertas Data Suite 支援多階段管線資料準備，提供每個階段的標注工作流程——版面偵測的邊界框標注、文字提取的文字轉錄、表格解析的結構化表格標注，以及圖像分析的圖形分類。平台維護各階段之間的關係（哪些文字區域來自哪些頁面、哪些表格對應哪些邊界框），提供合成解析管線所需的端對端可追溯性。

Your data is the bottleneck — not your models.

Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

Book a Discovery Call Learn about Ertas Data Suite →

準備合成解析管線：2026 年文件處理的新方法

管線架構

第一階段：版面偵測器

第二階段：文字提取器

第三階段：表格解析器

第四階段：圖像分析器

組合器

版面偵測器的資料準備

所需內容

標注工作流程

規模要求

文字提取器的資料準備

所需內容

建立真實文字

規模要求

表格解析器的資料準備

所需內容

挑戰

標注工作流程

規模要求

圖像分析器的資料準備

所需內容

分類真實文字

提取真實文字

規模要求

端對端品質驗證

時程和資源

延伸閱讀

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

從臨時資料準備到持續資料營運：建立永不停歇的流程

多模態文件處理：從單一 PDF 提取表格、圖像和文字

準備 RAG 資料集與微調資料集：不同管道，相同源資料