
多模態文件處理:從單一 PDF 提取表格、圖像和文字
企業 PDF 包含文字、表格、圖表和圖像——每種都需要不同的提取方法。以下是合成解析管道如何將每個元素路由到正確的模型以進行準確提取。
打開任何企業 PDF——施工規格、醫療記錄、財務報告——你會在單個頁面上找到至少三種不同類型的內容。解釋程序的敘述性文字。列出數量、價格或測試結果的表格。傳達空間或統計信息的技術圖紙或圖表。提供結構背景的頁眉、頁腳和頁碼。
這些內容類型中的每一種都需要根本不同的提取方法。這就是大 多數文件處理管道崩潰的地方。
為什麼單模型方法失敗
直覺是將一個模型應用於整個文件。在每個頁面上執行 OCR,取出文字,完成。這產生了三種可預測的失敗:
表格變成亂碼文字。 OCR 工具從左到右、從上到下閱讀。帶有合併單元格、多行行或嵌套標題的表格被序列化為無意義的字符串。帶有 200 個行項目的工程量清單變得無法使用。
圖像變得不可見。 文字提取工具完全跳過圖像或產生佔位文字如「[圖 1]」。技術圖紙、流程圖和圖表包含關鍵信息——尺寸、過程流程、資料趨勢——文字提取器無法看到。
結構丟失。 即使文字提取是準確的,文件的層次結構——哪些章節包含哪些子章節、哪些文字是標題與正文——也消失了。50 頁的規格變成沒有可導航結構的平面文字轉儲。
準確率數字說明了問題。單模型方法在混合內容企業文件上實現 60-75% 的準確率。這對於任何下游應用程式都無法使用——尤其是對於需要正確基準事實的訓練 AI 模型。
合成解析管道架構
2026 年文件處理的方法是合成解析管道:一種多階段架構,其中每個文件元素被路由到最適合處理它的專用模型。
架構遵循清晰的流程:
文件輸入 → 版面分析(偵測和分類區域) → 路由 → 文字區域進入 NLP 模型,表格區域進入表格提取模型,圖像區域進入視覺模型 → 結構化輸出組合 → 文件輸出
這不是一個做所有事情的單一模型。它是一個專家的集成,每個處理最擅長的部分,由版面分析階段協調,知道每個頁面上的每個元素在哪裡。
第一階段:版面分析
版面分析是流量控制器。它檢查每個頁面並將區域分類為類別:文字塊、表格、圖形、頁眉、頁腳、標題、頁碼、側邊欄、水印。
現代版面分析模型(LayoutLMv3、DiT、基於 YOLO 的偵測器)在標準企業文件的區域分類上達到 92-96% 的準確率。它們輸出帶有類別標籤 的邊界框——本質上是每個頁面的地圖,顯示每種內容類型在哪裡。
版面分析的準確率決定整個管道。如果一個表格區域被誤分類為文字,它就會被發送到文字提取器,結果變成亂碼。如果一個圖形被分類為表格,表格解析器產生無意義的輸出。投資高品質版面分析在每個下游階段都帶來回報。
對於具有一致模板的企業文件(來自同一系統的發票、表格、報告),版面分析準確率達到 98% 以上,因為模型學習了特定的模板結構。對於異質文件集合,準確率較低,但在 92-94% 時仍然足夠。
第二階段:文字提取
文字區域——段落、項目符號列表、編號列表、標題——通過針對散文優化的文字提取。這是 OCR 表現出色的地方,尤其是當它知道它在處理連續文字而不是結構化版面時。
企業文件文字提取的關鍵考慮因素:
字體處理。 企業 PDF 使用混合字體,包括嵌入的自訂字體。高品質文字提取正確處理字體編碼——一個常見的失敗點,其中 fi 連字或特殊符號等字符會損壞。
列偵測。 許多企業文件使用多列版面。文字提取器需要正確閱讀列——先完整閱讀左列,然後再閱讀右列——而不是跨列閱讀。
閱讀順序。 頁眉、正文、腳注和側邊欄都出現在同一頁面上。提取器必須確定正確的閱讀順序,這並不總是從上到下的。
準確率目標: 乾淨的數字 PDF 達到 98% 以上字符級準確率。掃描文件達到 94-96%。
第三階段:表格提取
表格提取是技術上最要求最高的階段。企業表格在結構上很複雜:
合併單元格跨越多行或多列。「混凝土規格」這樣的標題可能跨越 5 列。類別標籤可能跨越 15 行。
嵌套標題創建多層列結構。第 1 行可能說跨越 3 列的「第 1 階段」,第 2 行可能在該跨度下說「材料」、「數量」、「費用」。
多行單元格包含在單個邏輯單元格內佔用 2-3 行的換行文字。提取器必須將這些行分組為單個單元格值。
跨頁表格跨越分頁符繼續。標題行出現在第 1 頁,資料在第 2 頁和第 3 頁繼續,而不重複標題。
專用表格提取模型(TableTransformer、基於 DETR 的模型和商 業替代方案)在單元格級提取上達到 85-92% 的準確率。輸出是結構化的——通常是 JSON 或 CSV——保留了行/列關係。
對於訓練資料準備,表格準確率極為重要。如果你的 AI 模型正在學習從工程量清單中提取行項目,每個錯位的行或合併單元格錯誤都會成為一個錯誤標記的訓練範例。
第四階段:圖像處理
企業文件中的圖像不是照片——它們是技術圖紙、流程圖、條形圖、餅圖、平面圖和電路圖。每個子類別都需要不同的處理:
圖表和圖形包含應提取為結構化值的定量資料。顯示每月收入的條形圖應產生一個資料系列:[("1月", 1.2M), ("2月", 1.4M), ...]。具有圖表理解能力的視覺模型(ChartQA、MatCha)在從圖表提取資料方面達到 80-88% 的準確率。
技術圖紙包含空間和尺寸信息。相關提取取決於用例——對於某些應用,文字描述就足夠了;對於其他應用,需要提取特定尺寸或標注。
流程圖代表帶有連接的過程步驟。提取產生一個圖形結構:節點(過程步驟)和邊(它們之間的連接)。
照片和插圖可能需要標題說明或分類,但很少需要結構化資料提取。
圖像處理階段將每個圖形分類到其子類別,並應用適當的提取模型。對於訓練資料目的,關鍵輸出是可以在最終資料集中與文字和表格資料一起包含的結構化元資料。
第五階段:輸出組合
最後階段將所有模態的輸出組合成單一結構化表示。這是跨模態驗證發生的地方:
引用解析。 文字說「見表 3-2 查看材料數量。」組合器將這個引用連接到提取的表格,創建一個可導航的連接。
標題匹配。 提取為文字的圖形標題與其對應的提取圖像匹配。
章節層次結構。 文字、表格和圖形在文件的章節結構中組織,保留信息的邏輯流程。
組合輸出是一個結構化的 JSON 文件,其中每個元素——段落、表格、圖形——都以其類型、位置、內容和與其他元素的關係標記。這個結構化表示可直接用於生成訓練資料。
品質驗證
合成解析管道有多個階段,錯誤會複合。如果版面分析準確率為 95%,表格提取準確率為 90%,表格的組合準確率為 0.95 × 0.90 = 85.5%。管道末端的品質驗證捕獲各個階段遺漏的錯誤。
跨模態驗證: 如果文字提到「工程量清單中的 47 個行項目」,而提取的表格有 43 行,則遺漏了一些內容。自動檢查將提取的數量與文字引用進行比較。
一致性檢查: 列總計應該等於聲明的總計。引用的圖形編號應與提取的圖形匹配。頁面引用應該有效。
置信度評分: 每個提取的元素獲得一個置信度分數。低於閾值(通常為 0.85)的元素被標記供人工審閱。這將人工工作集中在管道最不確定的 10-15% 的元素上,而不是審閱所有內容。
基於取樣的稽核: 隨機選擇 5% 的處理文件進行完整人工審閱。隨時間追蹤準確率以偵測管道退化。
常見企業文件類型
不同的文件類型對管道的不同部分施壓:
施工工程量清單: 表格 密集,帶有複雜的嵌套結構、合併單元格和多頁表格。表格提取階段完成大部分工作。典型的準確率挑戰:跨資料行的合並類別標題。
醫療記錄: 敘述性文字(臨床記錄)、結構化資料(表格中的實驗室結果)和圖像(掃描、X 光)的混合。文字提取階段處理臨床敘事,而表格提取捕獲實驗室值。PHI/PII 處理增加了一個合規層。
法律合約: 主要是帶有編號條款、定義和交叉引用的文字。文字提取階段佔主導地位,但處理嵌套編號方案(1.1.1.a.i)和交叉引用解析是關鍵。
財務報表: 帶有精確數值的結構化表格、引用表格條目的腳注,以及顯示趨勢的圖表。表格提取準確率至關重要——財務數字中的小數點錯誤會連鎖到下游分析。
大規模處理
企業文件處理不是一次性練習。組織處理數千到數百萬頁。大規模有兩個主導因素:
吞吐量。 帶有 GPU 加速版面分析和表格提取的合成解析管道在單個工作站上每分鐘處理 50-100 頁。對於 700GB 的文件存檔,這大約是 2-3 週的連續處理——可行但並不簡單。
錯誤處理。 大規模時,一些文件將無法處理。損壞的 PDF、密碼保護的文件、不尋常的編碼、以奇怪角度掃描的文件。管道需要失敗文件的隔離隊列,以及決定哪些失敗需要修復與跳過的分類過程。
Ertas Data Suite 在單一平台上實施完整的合成解析管道——版面分析、文字提取、表格提取、圖像處理和輸出組合——在你的基礎設施上運行。每個階段都針對企業文件類型進行了優化,帶有置信度評分和低置信度提取的人機協作審閱。統一輸出直接饋入標記和匯出工作流程,消除了減慢大多數多工具方法速度的手動格式轉換。
Your data is the bottleneck — not your models.
Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.
延伸閱讀
- PDF 到 JSONL:構建企業資料準備管道 — 將企業 PDF 轉換為結構化 JSONL 訓練資料集的分步指南
- 非結構化文件作為 AI 訓練資料 — 如何將非結構化企業文件轉換為可用的訓練資料
- 企業 AI 的本地文件攝取 — 設置本地端文件攝取,使敏感資料保留在你的基礎設施內
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Preparing Synthetic Parsing Pipelines: The 2026 Approach to Document Processing
Document processing in 2026 isn't one model's job anymore. Synthetic parsing pipelines break documents into parts and route each to a specialized model. Here's how to prepare data for this architecture.

From 700GB of PDFs to a 500-Example Fine-Tuning Dataset: The Data Reduction Pipeline
You have terabytes of enterprise documents. Your fine-tuned model only needs 500-5,000 high-quality examples. Here's the systematic pipeline for reducing massive document archives into precision training datasets.

Enterprise PDF Parsing: From Raw Documents to Structured Output at Scale
How to build a PDF parsing pipeline that handles scanned, native, and mixed-layout enterprise documents at 700GB+ scale — with quality scoring, deduplication, and multi-format export.