
從 PDF 文件庫到 AI 訓練資料:這段旅程的真實樣貌
從一個企業 PDF 資料夾到可用 AI 訓練資料的完整實作說明——涵蓋攝入、清理、標記、增強和導出。
您有一個資料夾裡放著 50,000 份 PDF。也許是合約。也許是醫療記錄。也許是工程規格書。有人問:「我們能用這些資料訓練 AI 模型嗎?」
答案是肯定的——但不能直接用。從一個 PDF 資料夾到模型可以學習的訓練資料集,這段旅程有五個階段,每個階段都有其挑戰和時間要求。本指南將逐一介紹每個階段實際發生的事情、會出什麼問題,以及預期的情況。
第一階段:攝入——從 PDF 中提取文字
發生的事情:PDF 經過管道處理,提取文字、表格、圖片和文件結構。
對於數位原生 PDF(由 Word/LaTeX/HTML 創建):
- 文字提取很直接——文字層已嵌入 PDF 中
- 表格提取更困難——表格在 PDF 中是視覺結構,而非語義結構
- 版面偵測識別標題、段落、列表、腳注和頁碼
- 元資料提取獲取作者、建立日期和文件屬性
對於掃描版 PDF(紙質文件的圖片):
- OCR(光學字元識別)將頁面圖片轉換為文字
- 版面偵測識別文字區域、表格區域和圖片區域
- 表格重建嘗試從偵測到的線條和文字對齊方式重建表格格
- 置信度評分標記低品質的 OCR 輸出以供審查
會出什麼問題:
- 掃描品質差(解析度低、傾斜、陰影)的掃描文件會產生不可靠的 OCR
- 多欄版面混淆文字提取順序
- 有合併儲存格、跨欄標題或沒有格線的表格提取效果差
- 頁首頁尾與正文混在一起
- 數學公式、特殊字元和非拉丁文字需要專門處理
時間線:對於 50,000 份品質混雜的 PDF,攝入(包括品質審查)預計需要 1-3 週。
第二階段:清理——讓提取的內容可用
發生的事情:原始提取的內容被清理、標準化並進行品質評分。
去重複:企業積累了多份相同文件的副本——不同版本、在不同資料夾中的副本、重複存儲的電子郵件附件。精確和近似重複偵測可消除這些問題。
品質評分:每條提取記錄根據以下內容獲得品質分數:
- OCR 置信度(對於掃描文件)
- 完整性(所有預期章節是否存在?)
- 格式品質(文字是否結構良好還是混亂?)
低於品質閾值的記錄會被標記為手動審查或排除。
個人識別資訊/受保護健康資訊偵測:自動偵測個人識別資訊:
- 姓名、地址、電話號碼、電子郵件地址
- 社會安全號碼、帳號
- 醫療資訊(如適用)
- 偵測到的實體的編輯或符號化
標準化:標準化各文件的內容:
- 字元編碼標準化
- 空白和換行清理
- 章節標題標準化
- 引用和參考文獻標準化
會出什麼問題:
- 近似重複偵測有誤報(相似但有意義差異的文件)
- 個人識別資訊偵測有漏報(不尋常的姓名格式、依賴情境的識別符)
- 品質評分閾值難以正確設定——太嚴格會丟失好資料,太寬鬆會保留垃圾
- 標準化可能無意中改變意義(標準化術語可能改變特定領域的術語)
時間線:清理和品質審查需要 1-2 週。
第三階段:標記——添加訓練訊號
發生的事情:領域專家用 AI 模型需要學習的標籤來標注清理後的資料。
這個階段將資訊轉化為訓練資料。沒有標籤,模型就沒有可學習的東西(在監督學習的情境下)。
常見標記任務:
- 分類:為每個文件或章節指定類別(合約類型、索賠類別、報告類型)
- 實體提取:識別並標記文字中特定的資訊片段(當事方姓名、日期、金額、條款類型)
- 關係提取:連結相關實體(這個條款修改了那個術語,這個當事方是買方)
- 品質評估:對內容品質、相關性或準確性進行評分
由誰標記:必須由領域專家——理解內容的人——來標記:
- 律師標記法律文件(合約條款、風險因素、義務)
- 醫生標記病歷(診斷、治療、嚴重程度)
- 工程師標記技術文件(規格、要求、設計決策)
- 會計師標記財務文件(帳戶分類、風險評估)
會出什麼問題:
- 紙面上看起來清晰的標記方案在實踐中是模糊的——邊緣案例揭示類別重疊
- 領域專家的可用性有限——他們有本職工作
- 標注者間一致性低於預期(不同專家對同一文件的解讀不同)
- 標記疲勞——長時間工作後品質下降
- 標記工具對領域專家來說太複雜(需要 Python 或 Docker)
時間線:取決於數量、複雜性和領域專家的可用性,通常需要 3-6 週。這通常是最長的階段。
第四階段:增強——填補空缺
發生的事情:分析帶標籤的資料集的空缺,並在需要時進行增強。
類別平衡:如果某些類別代表性不足,增強技術可以增加其代表性:
- 對稀少類別進行過採樣
- 使用語言模型生成合成資料
- 對現有範例進行改述和變化
邊緣案例增強:原始資料中稀少的重要邊緣案例可能需要合成範例。
會出什麼問題:
- 合成資料不符合領域的風格或術語(在通用合成資料上訓練的模型可能會產生領域特定內容的幻覺)
- 過度增強創建了真實資料中不存在的模式
- 合成資料品質未由領域專家驗證
時間線:1-2 週。
第五階段:導出——生成模型就緒輸出
發生的事情:帶標籤的增強資料集以訓練管道所需的格式導出。
常見導出格式:
- JSONL 用於語言模型微調(指令/回應對、分類標籤)
- 分塊文字 用於 RAG 系統(帶有用於擷取的元資料)
- COCO/YOLO 用於電腦視覺模型
- CSV/Parquet 用於傳統 ML 模型
導出時包含的內容:
- 資料集本身
- 資料集統計(記錄數、類別分佈、品質分數)
- 資料血緣文件(來源 → 轉換 → 輸出)
- 合規文件(個人識別資訊處理、偏差評估、稽核軌跡)
- 可重現性的版本識別符
時間線:包括驗證需要 1 週。
真實時間線
對於 50,000 份品質混雜的 PDF,目標是分類或提取任務:
| 階段 | 時長 | 決定長度的因素 |
|---|---|---|
| 攝入 | 1-3 週 | 文件品質、格式多樣性 |
| 清理 | 1-2 週 | 個人識別資訊密度、品質差異 |
| 標記 | 3-6 週 | 專家可用性、方案複雜性 |
| 增強 | 1-2 週 | 類別不平衡、空缺嚴重程度 |
| 導出 | 1 週 | 格式要求、文件 |
| 合計 | 7-14 週 |
這是現實的,而非悲觀的估計。預算一個月來完成這項工作的團隊一貫會超期。
讓它更快的因素
- 統一工具:單一平台消除了各階段之間的格式轉換和整合時間
- 領域專家直接參與:讓專家直接標記(無需 Python/Docker)的工具消除了 ML 工程師的瓶頸
- 內建稽核軌跡:自動日誌記錄消除了手動文件記錄工作
- 迭代方法:從子集開始(5,000 份文件),驗證管道,然後擴展
Ertas Data Suite 在單一本地應用程式中處理這整段旅程——從 PDF 攝入到帶標籤的導出。這個管道不承諾讓資料準備工作瞬間完成(這確實是複雜的工作),但它消除了讓整個過程比應有的更長的整合開銷和可及性障礙。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

How to Convert Unstructured Enterprise Documents into AI Training Data
Step-by-step guide to turning PDFs, Word docs, Excel files, and scanned documents into clean, structured AI training data — without sending files to cloud APIs.

How to Convert Bill of Quantities into AI Training Data
A technical guide to converting Bills of Quantities (BOQs) from varied formats into structured AI training data — covering table extraction, normalization, labeling, and export.

Claims Processing AI: Preparing Unstructured Documents for Model Training
A practical guide to preparing insurance claims data for AI model training — from extracting structured data from claim forms to building datasets for fraud detection and auto-adjudication.