從 700GB PDF 到 500 個 Fine-Tuning 訓練範例：資料精簡流程

一家營建公司帶著 700GB 的 PDF 檔案找到我們——工程量清單、技術規範、建築圖面、工地報告，以及累積 15 年的專案文件。他們想為兩項任務微調模型：文件分類（從第一頁辨識文件類型）和實體擷取（從規範中提取關鍵專案細節）。

他們問：「我們要怎麼用所有這些資料來訓練？」

答案是：不用。你需要精簡它。

對大多數企業任務而言，微調語言模型只需要 500 到 5,000 個經過精心策展的範例。使用「所有資料」會引入雜訊、矛盾、冗餘和格式不一致，這些都會積極損害模型效能。目標不是最大化資料量——而是將 700GB 的原始文件提煉成能精確教導模型所需學習內容的 2,000 到 3,000 個範例。

本文將帶您了解這個五階段精簡流程，將大量文件檔案轉化為精準訓練資料集。

規模落差

這些數字讓挑戰一目瞭然：

700GB PDF ≈ 140,000 份文件，平均每份 5MB
140,000 份文件 ≈ 1,400 萬頁，平均每份 100 頁
1,400 萬頁 ≈ 70 億 token，每頁 500 token
Fine-tuning 需要 ≈ 2,000 個範例，平均約 500 token = 100 萬 token

您只需要可用資料的 0.014%。其餘 99.986% 不是冗餘、無關、過時，就是雜訊太多，無法改善訓練效果。

精簡流程必須找到正確的 0.014%——具有代表性、準確、多樣化且格式正確的範例。這不是隨機取樣，而是系統化的策展。

階段一：分類篩選

輸入： 700GB 原始文件 輸出： 約 200GB 可能相關的文件 精簡幅度： 約 70%

分類篩選將文件檔案分為「保留」、「捨棄」和「待審」三類。目標是在任何昂貴的處理開始之前，先排除明顯無關的資料。

自動化分類篩選

去除重複。 企業檔案庫包含大量重複——同一份規範發送給 15 個分包商，同一張圖面以 4 個版本儲存且檔名略有不同。內容雜湊（檔案的 MD5 或 SHA-256）可捕捉完全重複的檔案。對營建公司而言，我們通常在未管理的檔案庫中看到 15-30% 的完全重複。

檔案類型篩選。 並非所有 PDF 都包含有用的訓練內容。篩除：空白頁、僅有標誌的封面頁、目錄頁、佔位文件和無法解析的損壞檔案。自動化檢查：頁數（拒絕 0 頁 PDF）、檔案大小（拒絕小於 10KB 的檔案，可能是空白的）、文字可擷取性（拒絕無法擷取文字的檔案）。

日期篩選。 超過特定截止日期的文件可能不反映當前的標準、術語或商業慣例。如果您的模型將處理當前文件，使用 15 年前過時標準的規範來訓練可能會引入過時的模式。大多數企業的合理截止時間：保留最近 5-7 年的文件，除非特別需要較舊的文件。

文件類型分類。 使用零樣本分類器或簡單的關鍵字比對，按類型分類文件：規範、圖面、通信、報告、合約、發票。僅保留與訓練任務相關的文件類型。對於文件分類模型，您需要所有文件類型的範例；對於專注於規範的實體擷取模型，您只需要規範文件。

人工分類審查

自動化分類篩選處理了大部分的精簡工作，但 10-15% 的文件會落入「待審」——自動分類不確定的文件。領域專家審查這些文件，每份文件花費 15-30 秒決定「保留」或「捨棄」。

以這個速度，審查 5,000 份不確定的文件大約需要 30 小時。這是整個流程中最具成本效益的領域專家時間——每分鐘都能將多份文件從後續處理中排除。

階段二：擷取

輸入： 約 200GB 相關文件 輸出： 約 5GB 相關內容段落 精簡幅度： 約 97%

擷取從文件中提取包含訓練相關內容的特定段落。不是完整文件——而是特定的段落、表格、條款或頁面。

段落級擷取

大多數企業文件是 80% 的範本文字和 20% 的獨特內容。一份 200 頁的營建規範包含：

40 頁標準條款和條件（每個專案都相同）
30 頁一般要求（大部分標準化）
80 頁技術規範（獨特的，對訓練具有高價值）
30 頁附錄（圖面、時程表——可能相關也可能不相關）
20 頁封面頁、目錄和空白頁

對訓練而言，80 頁的技術規範是黃金。40 頁的標準條款是雜訊——每個專案都有相同的範本文字，所以包含它只會教模型輸出範本文字。

段落擷取方法：

基於標題的擷取： 解析文件結構並按標題擷取段落。「Section 03300 - Cast-in-Place Concrete」是相關的；「Section 00100 - Instructions to Bidders」則不是。
基於關鍵字的擷取： 擷取包含表示相關內容的領域特定關鍵字的頁面。過濾僅有行政或程序性內容的頁面。
基於版面的擷取： 使用版面偵測器識別高內容密度（文字 + 表格）與低內容密度（主要是空白、頁眉或圖片）的頁面。

內容品質篩選

段落擷取後，篩選擷取內容的品質：

移除可讀文字低於 50% 的段落（可能是需要不同處理的圖片密集頁面）
移除與先前擷取段落相同或近似相同的段落（跨文件去重）
移除您的模型不會處理的語言段落
移除大量塗黑或審查過的段落（學習內容不足）

階段三：轉換

輸入： 約 5GB 相關內容段落 輸出： 約 50MB 候選訓練配對 精簡幅度： 約 99%

這是擷取的內容轉化為訓練資料的階段。每個相關段落被轉換為輸入/輸出配對，匹配模型在生產環境中使用的格式。

用於文件分類

將每份文件的第一頁（或代表性段落）轉換為分類範例：

{
  "input": "Classify the following document excerpt:\n\n[first 500 tokens of document]",
  "output": "document_type: technical_specification\nconfidence_reason: Contains section headings with CSI format (Section 03300), material specifications, and compliance references to ASTM standards."
}

從 140,000 份文件經去重和分類篩選後，您可能有 30,000 個跨 12 種文件類型的唯一首頁。將它們全部轉換為候選分類配對。

用於實體擷取

將相關段落轉換為擷取範例：

{
  "input": "Extract project details from the following specification section:\n\n[specification text]",
  "output": {
    "project_name": "Westfield Commercial Center Phase 2",
    "specification_section": "03300 - Cast-in-Place Concrete",
    "concrete_grade": "C30/37",
    "slump_requirement": "100mm ± 25mm",
    "curing_period": "7 days minimum",
    "referenced_standards": ["ASTM C150", "ASTM C33", "ACI 318"]
  }
}

這個轉換需要領域專業知識。ML 工程師可以結構化輸入格式，但營建工程師必須識別和驗證正確的實體值。這是最耗費人力的階段。

建立訓練配對

領域專家在此階段的參與通常遵循以下工作流程：

ML 工程師擷取候選段落並將其結構化為輸入
ML 工程師使用 LLM 生成輸出草稿（實體擷取建議）
領域專家審查每個草稿，修正錯誤並填補缺漏
ML 工程師根據輸出 schema 驗證最終配對

時間估算：審查和修正一個草稿擷取每個範例需要 2-5 分鐘。對於 3,000 個候選配對，預算 100-250 小時的領域專家時間。分配給 3 位專家在 4 週內完成，即每位專家每週 8-20 小時。

階段四：策展

輸入： 約 50MB 候選訓練配對（例如 10,000 個配對） 輸出： 約 10MB 高品質訓練配對（例如 2,000 個配對） 精簡幅度： 約 80%

並非所有候選配對都適合訓練。策展根據品質、平衡性和多樣性進行篩選。

品質篩選

對所有候選配對執行品質檢查：

標籤準確性： 讓第二位領域專家審查隨機 15% 的配對。如果一致性低於 90%，標籤指南需要修訂，衝突的範例需要重新審查。

格式合規性： 根據預期 schema 驗證每個輸出。拒絕有缺失欄位、錯誤資料類型或格式錯誤的配對。

近似重複移除： 對所有輸入文字進行嵌入，並移除輸入餘弦相似度超過 0.95 的配對。從 10,000 個候選中，近似重複移除通常消除 20-40%。

類別平衡

對於分類任務，計算每個類別的範例數。如果「technical_specification」有 4,000 個範例而「site_report」只有 200 個，模型將壓倒性地學會預測「technical_specification」。

通過對過度代表的類別進行降採樣並保留所有代表不足類別的範例來實現平衡。目標：最終資料集中沒有類別低於 5%。如果某個類別確實很少出現，則對其進行過採樣或專門為該類別建立額外範例。

多樣性最大化

在剩餘的候選中，選擇最大多樣性：

不同專案（不是從同一個營建專案中取 500 個範例）
不同文件範本（不全來自同一家工程公司）
不同複雜度層級（簡單規範和複雜的多系統規範）
不同邊界案例（非常規格式、非標準術語、多語言文件）

實用方法：使用句子嵌入對候選配對進行聚類，然後選擇覆蓋整個聚類空間的範例——從代表不足的聚類中選取更多範例，從密集聚類中選取較少。

階段五：驗證

輸入： 約 2,000 個策展後的訓練配對 輸出： 約 2,000 個經驗證的訓練配對（如果驗證發現問題則可能更少） 精簡幅度： 0-10%（驗證移除最後的品質問題）

最終階段是對完整策展資料集進行專家審查。

專家審查

領域專家審查最終資料集，不是逐一檢查每個範例（他們已在階段三審查過個別範例），而是整體檢視資料集：

覆蓋度檢查： 所有文件類型都有代表嗎？所有實體類型都存在嗎？邊界案例包含在內嗎？
一致性檢查： 相似的文件標籤是否一致？如果兩份幾乎相同的規範有不同的實體擷取結果，其中一個是錯的。
真實性檢查： 資料集是否反映模型在生產環境中實際會遇到的情況？還是偏向容易的範例？

邊界案例審計

特別審查在先前階段識別的邊界案例：

非標準格式的文件
使用非常規範本的文件
資訊不完整的文件
資訊矛盾的文件
處於類別邊界的文件

確保最終資料集中每種邊界案例類型至少有 3-5 個範例。

格式驗證

最終自動化檢查：將每個範例再次通過輸出 schema 驗證器。這可以捕捉在審查和修正過程中引入的任何格式問題。

真實案例結果

該營建公司的 700GB 檔案庫精簡結果如下：

階段	容量	文件/範例數	精簡幅度
原始檔案庫	700GB	約 140,000 份文件	—
分類篩選後	195GB	約 45,000 份文件	72%
擷取後	4.8GB	約 120,000 個段落	97.5%
轉換後	42MB	8,200 個候選配對	—
策展後	8.5MB	1,800 分類 + 3,200 擷取配對	—
驗證後	8.1MB	1,750 分類 + 3,100 擷取配對	—

總時間：4 週，2 位 ML 工程師和 3 位領域專家。

最終模型在文件分類（12 個類別）上達到 94% 的準確率，在實體擷取（15 種實體類型）上達到 89% 的準確率。這是使用不到 5,000 個範例微調的 7B 參數模型——從 700GB 的原始資料中擷取。

常見錯誤

跳過分類篩選，試圖處理所有資料。 將 700GB 的 PDF 通過解析流程處理需要數週的運算時間，並產生大量無關資料。分類篩選可預先消除 70% 的成本。

隨機取樣而非系統化策展。 從 140,000 份文件中隨機選取 2,000 份會產生一個反映檔案庫分佈的資料集——通常由少數文件類型和少數專案主導。系統化策展確保所有類型的覆蓋和來源的多樣性。

讓 ML 工程師在沒有領域專家的情況下建立基準真值。 轉換階段需要領域知識才能產生正確的輸出。ML 工程師可以結構化配對，但營建工程師必須驗證實體值。

包含過時文件但未標記。 較舊的文件可能引用過時的標準或使用已廢棄的術語。如果包含，請標記它們，讓模型學習當前做法，而非歷史做法。

Ertas Data Suite 支援資料精簡流程的每個階段。自動化分類篩選在匯入時對文件進行分類和去重。段落級擷取識別並隔離相關內容。標籤介面支援領域專家高效審查候選訓練配對。品質評分、去重和類別平衡內建於策展階段。最終驗證工作流程確保資料集在匯出前達到品質門檻。整個流程在本地端運行，將 700GB 的敏感企業文件保留在您的基礎設施內。

Your data is the bottleneck — not your models.

Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

Book a Discovery Call Learn about Ertas Data Suite →