本地端 ML 訓練資料集清理：去重複、規範化與品質評分

攝入之後，您擁有結構化文字。但結構化並不等同於乾淨。企業文件集合包含重複項、編碼殘差、個人識別資訊、格式不一致，以及會降低模型性能的低品質記錄——如果它們進入訓練集的話。

清理是大多數團隊投入不足的階段——也是決定模型在生產環境中能否正常工作的地方。本指南涵蓋完全在本地端清理 ML 訓練資料集的實用技術：不使用雲端 NER 服務、不使用外部 API、不外洩資料。

去重複：精確和近似重複

訓練資料中的重複項導致模型在重複範例上過度擬合，在評估期間誇大性能指標，同時降低泛化能力。在企業文件集合中，重複項普遍存在——同一合同範本使用了 300 次，有細微修改；同一政策文件分發給每個部門；同一封電子郵件通過收件人鏈轉發。

精確去重複

最簡單的情況。計算每個文件內容的雜湊值（SHA-256），並移除具有相同雜湊值的記錄。這能捕捉到字節完全相同的重複項——以不同名稱保存的同一文件，或從多個來源攝入的同一文件。

精確去重複速度快（使用雜湊集合為 O(n)），應始終是第一步。

近似重複偵測

更有價值也更複雜。近似重複是內容高度相似但不完全相同的文件——同一範本的不同版本、有細微編輯的文件，或共享 90% 內容的記錄。

兩種實用方法：

使用局部敏感雜湊（LSH）的 MinHash：從文件 n-gram 計算 MinHash 簽名，然後使用 LSH 高效找到具有高 Jaccard 相似性的對。這能擴展到數百萬個文件，並捕捉內容級別的近似重複，而不管格式差異。典型閾值：0.8 到 0.9 的 Jaccard 相似性。

SimHash：使用加權 Token 特徵為每個文件計算單一指紋。Hamming 距離低於閾值的文件被標記為近似重複。對於非常大的集合比 MinHash 更快，但對於較短的文件精確度較低。

對於訓練資料集，帶 LSH 的 MinHash 是標準選擇。它能很好地處理企業案例：找到那 300 份幾乎相同的合同，並將它們折疊為 15 到 20 個不同變體的代表性集合。

如何處理近似重複

不要只是刪除它們。近似重複包含了關於文件哪些部分是穩定的（樣板）與可變的（重要部分）的資訊。選項：

保留一個代表：選擇最高品質的版本並捨棄其餘版本
全部保留但標記：包含一個集群 ID，以便下游階段可以相應地加權或取樣
合併：對於範本文件，提取可變部分並創建一個涵蓋變化空間的單一訓練範例

文字規範化

規範化在不改變含義的情況下使文字一致。企業文件在對模型訓練重要的方面非常不一致。

編碼規範化

將所有內容轉換為 UTF-8 NFC（規範分解後跟規範組合）。這處理了：

Windows-1252「智能引號」在 UTF-8 中顯示為亂碼
同一字元的多個 Unicode 表示（例如，「é」作為單個碼點與「e」+ 組合重音）
破壞分詞的零寬空格、字節順序標記和其他不可見字元

空白規範化

將多個空格折疊為單個空格
規範化行尾（CRLF → LF）
移除行末尾的空白
一致地處理製表符到空格的轉換

常見企業特定規範化

日期格式：「03/11/2026」vs「March 11, 2026」vs「2026-03-11」——決定規範格式或規範化為 ISO 8601
數字格式：「1,000,000」vs「1000000」vs「1.000.000」（歐洲式）——根據地區設置規範化
縮寫：「Dr.」vs「Doctor」、「Inc.」vs「Incorporated」——維護領域特定的規範化字典
法律引用：「42 U.S.C. § 1983」在文件中以數十種格式出現——規範化為規範形式

個人識別資訊和受保護健康資訊偵測與編輯

對於醫療（HIPAA）、金融（GLBA、SOC 2）和法律（律師-客戶特許權）資料，個人識別資訊/受保護健康資訊編輯不是可選的。這是合規要求。而且必須在本地端進行——將文件發送到雲端 NER 服務進行個人識別資訊偵測違背了目的。

本地端個人識別資訊偵測方法

基於規則（正則表達式 + 模式）：以高精確度捕捉結構化個人識別資訊：

社會安全號碼：\d{3}-\d{2}-\d{4}
電話號碼：每個地區的各種格式
電子郵件地址：標準模式匹配
信用卡號碼：Luhn 驗證的模式
出生日期：與上下文線索結合時

優點：快速、可預測，對於定義良好的格式零漏報。缺點：遺漏上下文個人識別資訊（自由文字中提到的姓名、地址、醫療狀況）。

NER 模型（本地）：本地運行的 SpaCy NER 模型、Stanza 或微調的 Transformer 模型可以偵測姓名、組織、地點和其他上下文實體。準確性因領域而異——通用 NER 模型會遺漏許多醫療術語、法律實體或金融識別符。

本地 LLM 輔助偵測：被提示識別文字段落中個人識別資訊的本地 70 億以上模型。比基於規則或 NER 方法更靈活，但速度更慢且確定性更低。最適合在基於規則和 NER 偵測之後作為第二遍使用。

編輯策略

替換：用類型佔位符替換個人識別資訊——[NAME]、[SSN]、[DATE_OF_BIRTH]。保留訓練的句子結構。
一致的假名化：在整個資料集中用一致的假名替換每個唯一實體——「Dr. Smith」→「Dr. Johnson」。保留實體關係。
移除：刪除個人識別資訊和周圍上下文。損失資訊，但是最保守的方法。

對於訓練資料，使用類型佔位符替換通常是最佳平衡——模型學習了個人識別資訊出現的模式，而不記憶特定識別符。

不使用雲端 API 的品質評分

並非所有訓練範例都同樣有價值。品質評分識別可能提高模型性能（高品質）的記錄，而不是可能增加雜訊（低品質）的記錄。

啟發式品質信號

這些不需要模型推理，提供快速的基準品質估計：

信號	捕捉什麼	閾值
文字長度	太短（無內容）或太長（連接的垃圾）	依領域而定；通常 50 到 5,000 個 Token
句子數	缺乏上下文的單句「文件」	大多數使用案例至少 3 到 5 個句子
詞彙多樣性	重複文字（複製粘貼錯誤、樣板）	類型-Token 比率低於 0.3 是可疑的
特殊字元比率	OCR 殘差、編碼損壞	超過 5% 非字母數字是一個標誌
語言偵測置信度	混合語言文件、亂碼文字	低於 0.8 置信度值得審查
困惑度（本地模型）	不連貫或損壞的文字	相對於語料庫平均值的高困惑度

類 Cleanlab 的置信學習

Cleanlab 是用於在資料集中查找標籤錯誤和低品質範例的頂級開源庫。它使用置信學習——比較模型預測與提供的標籤以識別可能標籤錯誤或模糊的範例。

Cleanlab 效果很好。對服務提供商的限制是它是一個需要 ML 工程專業知識來配置和運行的 Python 庫。它不提供 GUI，不生成稽核就緒的報告，並且需要整合到自定義管道中。

本地嵌入品質評分

使用本地嵌入模型（例如，通過 sentence-transformers 的 all-MiniLM-L6-v2）為所有記錄計算嵌入。然後：

異常值偵測：嵌入遠離任何集群中心的記錄可能是偏題的或損壞的
連貫性評分：嵌入接近語料庫質心的記錄是典型的；邊緣的記錄值得審查
多樣性評估：確保訓練集均勻覆蓋嵌入空間，而不是聚集在一個區域

這種方法完全在本地運行，無需標記或模型訓練即可提供有用的品質信號。

實用清理工作流程

企業資料集的實際清理工作流程：

精確去重複 — 移除字節相同的重複項。快速，無假陽性。
編碼規範化 — 轉換為 UTF-8 NFC。修復亂碼。
空白和格式規範化 — 一致的間距、行尾、數字格式。
近似重複偵測 — 使用 0.85 閾值的 MinHash/LSH。審查集群，選擇代表。
個人識別資訊/受保護健康資訊偵測 — 基於規則的第一遍，NER 第二遍，對標記項目進行手動審查。
個人識別資訊編輯 — 應用所選的編輯策略。記錄每次編輯。
啟發式品質過濾 — 移除未通過基本品質檢查的記錄。
品質評分 — 按品質對剩餘記錄進行排名。審查底部 10%。
人工審查 — 領域專家審查標記的記錄和邊界案例。

每個步驟應記錄移除、修改或標記的內容——以及原因。這個日誌是您的稽核軌跡。

Ertas Data Suite 的 Clean 模組通過內置的去重複（精確和近似重複）、規範化、個人識別資訊偵測和品質評分處理整個工作流程——通過領域專家和合規官可以直接操作的視覺界面訪問。每個操作都自動記錄到項目稽核軌跡。

連接到管道

乾淨的資料進入標記，人工標注者和本地 LLM 協同工具在這裡應用微調所需的標籤。進入標記階段的資料越乾淨，標記就越快、越準確——領域專家將時間花在實質性的標記決策上，而不是修復本應在早期捕捉的資料品質問題。

有關完整管道概述，請參閱如何為 LLM 微調構建本地端資料準備管道。