企業文件處理的 SLM 微調：從 PDF 到結構化數據

企業文件處理是微調小型語言模型最有說服力的用例之一。目標是明確的（PDF 進入，結構化數據輸出），準確性是可測量的，而且從手動流程節省的成本是巨大的。

本指南介紹了在企業部署中實際有效的管道架構、模型選擇和微調方法。

為什麼文件處理需要微調（而不僅僅是 RAG）

檢索增強生成 (RAG) 適合問答場景——您有一個文件庫，用戶提問，模型查找相關段落並生成答案。

文件提取有不同的要求：

100% 召回率：您需要提取每個相關字段，而不僅僅是足夠多的字段
結構化輸出：輸出需要是精確的 JSON（或其他格式），不是散文
一致的格式：您的下游系統期望精確的字段名稱和數據類型
高吞吐量：批量處理數千個文件需要速度，而不是低延遲
可審計性：提取需要可追溯回原始文件

RAG 架構對這些要求不適合。微調直接教模型「當您看到這種類型的文件時，從中提取這些字段，格式化輸出如下」。

管道架構

文件處理管道有五個階段：

文件輸入（PDF、掃描圖像、Word）
    │
    ▼
第 1 階段：攝入和提取（OCR + 布局分析）
    │
    ▼
第 2 階段：清理和去識別化
    │
    ▼
第 3 階段：標注（領域專家注釋）
    │
    ▼
第 4 階段：微調 SLM（LoRA 訓練）
    │
    ▼
第 5 階段：大規模部署

第 1 階段：攝入和提取

輸入文件通常是 PDF，但 PDF 的種類不同：

帶有可選擇文本的原生 PDF
掃描圖像 PDF（需要 OCR）
帶有複雜表格布局的 PDF
帶有字段和值的 PDF 表單

每種類型需要不同的處理。對於掃描圖像，帶有布局意識的 OCR 工具（Tesseract、Azure Document Intelligence、AWS Textract）是必要的——在嘗試提取結構之前，您需要恢復文本。

第 2 階段：清理和去識別化

原始 OCR 輸出不乾淨。常見的問題：

字符識別錯誤（"0" vs "O"，"l" vs "1"）
頁眉/頁腳噪音
不一致的空白
表格結構損壞

對於包含受監管數據（PHI、PII）的文件，在訓練之前去識別化是一個法律要求，而不僅僅是最佳實踐。

第 3 階段：標注

標注是使微調有效的原因。這不是為一般 AI 能力標注——這是教模型「對於我們的特定文件類型，從這些特定字段中提取，格式化為這個精確的 JSON 結構」。

標注需要領域專家。建築項目的工料清單 (BOQ) 提取需要了解行業術語的人。臨床筆記提取需要臨床編碼人員。財務報表提取需要會計師。

通用標注人員在這些任務上表現不好——他們不知道哪些字段是關鍵的，以及如何處理行業特定的邊緣案例。

第 4 階段：微調 SLM

7B–13B 參數模型在大多數文件提取任務上的表現出乎意料地好。這些模型有幾個優點：

在適度的硬件上運行（16–24GB VRAM）
在文件類型上微調快速（30–90 分鐘）
在定義良好的提取任務上的準確性接近 GPT-4o
本地部署——數據不離開您的基礎設施

LoRA（低秩自適應）微調是首選方法：效率高（更新的參數少），計算要求低，並且產生可以快速切換的輕量適配器（對於需要針對不同文件類型的多個模型的服務提供商很有用）。

第 5 階段：大規模部署

一旦微調，您的 SLM 在生產中為批量文件處理提供服務。典型的部署棧：

推理：帶 GPU 後端的 Ollama 或 vLLM
隊列：Redis 或 RabbitMQ 用於異步批量處理
存儲：文件輸入和提取 JSON 輸出的對象存儲
監控：提取成功率、置信度分數、需要人工審查的標記

行業示例

建築：工料清單提取

問題：建築公司收到來自分包商的 PDF 格式 BOQ（工料清單）。從這些文件手動提取結構化數據（材料、數量、單位成本、總計）需要每個文件 2–4 小時。

解決方案：在 500 個帶注釋的 BOQ 上微調的 7B 模型，提取精確的 JSON：

{
  "items": [
    {
      "description": "混凝土 C30/37",
      "quantity": 145.5,
      "unit": "m³",
      "unit_rate": 185.00,
      "total": 26917.50
    }
  ],
  "subtotal": 486250.00,
  "vat_rate": 0.20,
  "total_including_vat": 583500.00
}

結果：

每個文件的處理時間從 2–4 小時降至 2–3 分鐘
提取準確性 95%以上（之前手動數據錄入錯誤率約 3%）
一年內 ROI 超過 300%

法律：合同條款提取

問題：法律服務公司需要從商業合同中提取關鍵條款（終止條款、責任上限、適用法律），以供律師在繡球前審查。

解決方案：在 3,000 個帶注釋合同上微調的 13B 模型，提取結構化條款摘要：

{
  "termination_notice_days": 30,
  "liability_cap": {
    "amount": 500000,
    "currency": "GBP",
    "basis": "contract_value"
  },
  "governing_law": "England and Wales",
  "dispute_resolution": "arbitration",
  "auto_renewal": true,
  "renewal_notice_days": 60
}

結果：律師在審查前將條款標記問題而非從頭閱讀，審查時間減少約 60%。

醫療保健：臨床筆記到 ICD-10

問題：醫療保健組織需要從非結構化臨床筆記中提取診斷代碼 (ICD-10) 以進行計費，目前需要手動醫療編碼人員。

解決方案：在 5,000 個帶注釋筆記-代碼對上微調的模型，提取診斷代碼並附置信度分數：

{
  "primary_diagnosis": {
    "code": "J18.9",
    "description": "未特指的肺炎",
    "confidence": 0.94
  },
  "secondary_diagnoses": [
    {
      "code": "E11.9",
      "description": "2 型糖尿病，不伴並發症",
      "confidence": 0.89
    }
  ],
  "requires_human_review": false
}

低於 0.85 的置信度分數路由到人工審查，高置信度提取自動批準計費。

金融服務：財務報表提取

問題：私募股權公司在盡職調查過程中需要從投資組合公司的財務報表中提取標準財務指標。

解決方案：在來自多個行業的財務報表上微調的模型，提取標準化 KPI：

{
  "period": "FY2025",
  "revenue": 45200000,
  "ebitda": 8900000,
  "ebitda_margin": 0.197,
  "net_debt": 12300000,
  "leverage_ratio": 1.38,
  "working_capital": 4200000
}

成本比較

手動文件處理 vs. SLM 的比較（每份文件）：

行業	手動成本/文件	SLM 成本/文件	節省
建築 BOQ	$80–150	$0.45–0.90	178x
法律合同	$120–200	$0.60–1.20	167x
臨床筆記	$15–25	$0.35–0.55	40x
財務報表	$200–400	$1.00–2.00	200x

什麼時候微調比 GPT-4o 表現更好

對於文件提取，微調的 SLM 通常在以下方面優於 GPT-4o：

格式一致性：微調的模型每次輸出完全相同的 JSON 結構。通用 LLM 偶爾改變字段名稱、添加額外字段或忽略您指定的字段。

行業術語：在行業文件上訓練的模型了解 BOQ 的 BOQ、臨床筆記的臨床筆記。這提高了在術語模糊的邊緣案例中的準確性。

置信度得分：您可以訓練微調的模型輸出每個提取字段的置信度得分，從而觸發低置信度項目的人工審查。GPT-4o 可以生成置信度，但可靠性更低。

本地處理：PHI 和其他受監管的數據永遠不會離開您的基礎設施——這對醫療保健和金融服務合規來說是必不可少的。

Your data is the bottleneck — not your models.

Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

Book a Discovery Call Learn about Ertas Data Suite →