Back to blog
    本地端 ML 訓練資料集清理:去重複、規範化與品質評分
    data-cleaningdeduplicationpii-redactionquality-scoringon-premiseml-trainingsegment:service-provider

    本地端 ML 訓練資料集清理:去重複、規範化與品質評分

    如何在本地端清理 ML 訓練資料集——涵蓋使用 MinHash 去重複、文字規範化、個人識別資訊編輯,以及在不使用雲端 API 的情況下進行品質評分。

    EErtas Team·

    攝入之後,您擁有結構化文字。但結構化並不等同於乾淨。企業文件集合包含重複項、編碼殘差、個人識別資訊、格式不一致,以及會降低模型性能的低品質記錄——如果它們進入訓練集的話。

    清理是大多數團隊投入不足的階段——也是決定模型在生產環境中能否正常工作的地方。本指南涵蓋完全在本地端清理 ML 訓練資料集的實用技術:不使用雲端 NER 服務、不使用外部 API、不外洩資料。


    去重複:精確和近似重複

    訓練資料中的重複項導致模型在重複範例上過度擬合,在評估期間誇大性能指標,同時降低泛化能力。在企業文件集合中,重複項普遍存在——同一合同範本使用了 300 次,有細微修改;同一政策文件分發給每個部門;同一封電子郵件通過收件人鏈轉發。

    精確去重複

    最簡單的情況。計算每個文件內容的雜湊值(SHA-256),並移除具有相同雜湊值的記錄。這能捕捉到字節完全相同的重複項——以不同名稱保存的同一文件,或從多個來源攝入的同一文件。

    精確去重複速度快(使用雜湊集合為 O(n)),應始終是第一步。

    近似重複偵測

    更有價值也更複雜。近似重複是內容高度相似但不完全相同的文件——同一範本的不同版本、有細微編輯的文件,或共享 90% 內容的記錄。

    兩種實用方法:

    使用局部敏感雜湊(LSH)的 MinHash:從文件 n-gram 計算 MinHash 簽名,然後使用 LSH 高效找到具有高 Jaccard 相似性的對。這能擴展到數百萬個文件,並捕捉內容級別的近似重複,而不管格式差異。典型閾值:0.8 到 0.9 的 Jaccard 相似性。

    SimHash:使用加權 Token 特徵為每個文件計算單一指紋。Hamming 距離低於閾值的文件被標記為近似重複。對於非常大的集合比 MinHash 更快,但對於較短的文件精確度較低。

    對於訓練資料集,帶 LSH 的 MinHash 是標準選擇。它能很好地處理企業案例:找到那 300 份幾乎相同的合同,並將它們折疊為 15 到 20 個不同變體的代表性集合。

    如何處理近似重複

    不要只是刪除它們。近似重複包含了關於文件哪些部分是穩定的(樣板)與可變的(重要部分)的資訊。選項:

    • 保留一個代表:選擇最高品質的版本並捨棄其餘版本
    • 全部保留但標記:包含一個集群 ID,以便下游階段可以相應地加權或取樣
    • 合併:對於範本文件,提取可變部分並創建一個涵蓋變化空間的單一訓練範例

    文字規範化

    規範化在不改變含義的情況下使文字一致。企業文件在對模型訓練重要的方面非常不一致。

    編碼規範化

    將所有內容轉換為 UTF-8 NFC(規範分解後跟規範組合)。這處理了:

    • Windows-1252「智能引號」在 UTF-8 中顯示為亂碼
    • 同一字元的多個 Unicode 表示(例如,「é」作為單個碼點與「e」+ 組合重音)
    • 破壞分詞的零寬空格、字節順序標記和其他不可見字元

    空白規範化

    • 將多個空格折疊為單個空格
    • 規範化行尾(CRLF → LF)
    • 移除行末尾的空白
    • 一致地處理製表符到空格的轉換

    常見企業特定規範化

    • 日期格式:「03/11/2026」vs「March 11, 2026」vs「2026-03-11」——決定規範格式或規範化為 ISO 8601
    • 數字格式:「1,000,000」vs「1000000」vs「1.000.000」(歐洲式)——根據地區設置規範化
    • 縮寫:「Dr.」vs「Doctor」、「Inc.」vs「Incorporated」——維護領域特定的規範化字典
    • 法律引用:「42 U.S.C. § 1983」在文件中以數十種格式出現——規範化為規範形式

    個人識別資訊和受保護健康資訊偵測與編輯

    對於醫療(HIPAA)、金融(GLBA、SOC 2)和法律(律師-客戶特許權)資料,個人識別資訊/受保護健康資訊編輯不是可選的。這是合規要求。而且必須在本地端進行——將文件發送到雲端 NER 服務進行個人識別資訊偵測違背了目的。

    本地端個人識別資訊偵測方法

    基於規則(正則表達式 + 模式):以高精確度捕捉結構化個人識別資訊:

    • 社會安全號碼:\d{3}-\d{2}-\d{4}
    • 電話號碼:每個地區的各種格式
    • 電子郵件地址:標準模式匹配
    • 信用卡號碼:Luhn 驗證的模式
    • 出生日期:與上下文線索結合時

    優點:快速、可預測,對於定義良好的格式零漏報。缺點:遺漏上下文個人識別資訊(自由文字中提到的姓名、地址、醫療狀況)。

    NER 模型(本地):本地運行的 SpaCy NER 模型、Stanza 或微調的 Transformer 模型可以偵測姓名、組織、地點和其他上下文實體。準確性因領域而異——通用 NER 模型會遺漏許多醫療術語、法律實體或金融識別符。

    本地 LLM 輔助偵測:被提示識別文字段落中個人識別資訊的本地 70 億以上模型。比基於規則或 NER 方法更靈活,但速度更慢且確定性更低。最適合在基於規則和 NER 偵測之後作為第二遍使用。

    編輯策略

    • 替換:用類型佔位符替換個人識別資訊——[NAME][SSN][DATE_OF_BIRTH]。保留訓練的句子結構。
    • 一致的假名化:在整個資料集中用一致的假名替換每個唯一實體——「Dr. Smith」→「Dr. Johnson」。保留實體關係。
    • 移除:刪除個人識別資訊和周圍上下文。損失資訊,但是最保守的方法。

    對於訓練資料,使用類型佔位符替換通常是最佳平衡——模型學習了個人識別資訊出現的模式,而不記憶特定識別符。


    不使用雲端 API 的品質評分

    並非所有訓練範例都同樣有價值。品質評分識別可能提高模型性能(高品質)的記錄,而不是可能增加雜訊(低品質)的記錄。

    啟發式品質信號

    這些不需要模型推理,提供快速的基準品質估計:

    信號捕捉什麼閾值
    文字長度太短(無內容)或太長(連接的垃圾)依領域而定;通常 50 到 5,000 個 Token
    句子數缺乏上下文的單句「文件」大多數使用案例至少 3 到 5 個句子
    詞彙多樣性重複文字(複製粘貼錯誤、樣板)類型-Token 比率低於 0.3 是可疑的
    特殊字元比率OCR 殘差、編碼損壞超過 5% 非字母數字是一個標誌
    語言偵測置信度混合語言文件、亂碼文字低於 0.8 置信度值得審查
    困惑度(本地模型)不連貫或損壞的文字相對於語料庫平均值的高困惑度

    類 Cleanlab 的置信學習

    Cleanlab 是用於在資料集中查找標籤錯誤和低品質範例的頂級開源庫。它使用置信學習——比較模型預測與提供的標籤以識別可能標籤錯誤或模糊的範例。

    Cleanlab 效果很好。對服務提供商的限制是它是一個需要 ML 工程專業知識來配置和運行的 Python 庫。它不提供 GUI,不生成稽核就緒的報告,並且需要整合到自定義管道中。

    本地嵌入品質評分

    使用本地嵌入模型(例如,通過 sentence-transformers 的 all-MiniLM-L6-v2)為所有記錄計算嵌入。然後:

    • 異常值偵測:嵌入遠離任何集群中心的記錄可能是偏題的或損壞的
    • 連貫性評分:嵌入接近語料庫質心的記錄是典型的;邊緣的記錄值得審查
    • 多樣性評估:確保訓練集均勻覆蓋嵌入空間,而不是聚集在一個區域

    這種方法完全在本地運行,無需標記或模型訓練即可提供有用的品質信號。


    實用清理工作流程

    企業資料集的實際清理工作流程:

    1. 精確去重複 — 移除字節相同的重複項。快速,無假陽性。
    2. 編碼規範化 — 轉換為 UTF-8 NFC。修復亂碼。
    3. 空白和格式規範化 — 一致的間距、行尾、數字格式。
    4. 近似重複偵測 — 使用 0.85 閾值的 MinHash/LSH。審查集群,選擇代表。
    5. 個人識別資訊/受保護健康資訊偵測 — 基於規則的第一遍,NER 第二遍,對標記項目進行手動審查。
    6. 個人識別資訊編輯 — 應用所選的編輯策略。記錄每次編輯。
    7. 啟發式品質過濾 — 移除未通過基本品質檢查的記錄。
    8. 品質評分 — 按品質對剩餘記錄進行排名。審查底部 10%。
    9. 人工審查 — 領域專家審查標記的記錄和邊界案例。

    每個步驟應記錄移除、修改或標記的內容——以及原因。這個日誌是您的稽核軌跡。

    Ertas Data Suite 的 Clean 模組通過內置的去重複(精確和近似重複)、規範化、個人識別資訊偵測和品質評分處理整個工作流程——通過領域專家和合規官可以直接操作的視覺界面訪問。每個操作都自動記錄到項目稽核軌跡。


    連接到管道

    乾淨的資料進入標記,人工標注者和本地 LLM 協同工具在這裡應用微調所需的標籤。進入標記階段的資料越乾淨,標記就越快、越準確——領域專家將時間花在實質性的標記決策上,而不是修復本應在早期捕捉的資料品質問題。

    有關完整管道概述,請參閱如何為 LLM 微調構建本地端資料準備管道

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading