What is Data Deduplication(資料去重)?

    識別並移除資料集中重複或近重複項目的過程,以防止記憶化偽影並提高訓練效率。

    Definition

    資料去重是檢測並移除訓練資料集中相同或高度相似項目的過程。在 LLM 微調中,重複可出現在多個層級:完全重複(相同的指令-回應對出現多次)、近重複(僅在空白、標點或細微措辭上不同的對)和語義重複(以截然不同的措辭傳達相同資訊的對)。每種類型需要不同的檢測方法。

    完全去重很簡單——對每個範例進行雜湊並移除匹配項。近重複檢測通常使用 MinHash 與 LSH 技術。語義去重使用嵌入相似度來找到概念相同但措辭不同的項目。

    研究一致表明重複資料損害模型品質。在含有大量重複的資料集上訓練的模型傾向於逐字記憶重複範例而非學習可泛化的模式。

    Why It Matters

    重複造成記憶化和分佈偏差兩個問題。記憶化使模型學會精確重現重複範例而非學習底層模式。分佈偏差使某些主題或風格被過度代表。去重後的資料集訓練更快,通常產生更好的模型,因為訓練訊號更多樣化。跳過去重的團隊常發現小 30% 的去重資料集表現優於完整資料集。

    How It Works

    實用的去重管線分階段工作。首先,完全去重使用內容雜湊識別相同項目。其次,近重複檢測使用 MinHash/LSH 找到超過可配置相似度閾值的項目。可選地,第三階段使用基於嵌入的語義相似度找到表面形式不同但概念相同的項目。

    Example Use Case

    一個團隊從三個來源匯總資料,發現 15,000 個範例中 28% 是重複的。去重後資料集縮小到 10,800 個唯一範例。在去重資料集上微調的模型準確度比完整資料集高 3%——用更少的資料獲得更好的結果。

    Key Takeaways

    • 資料去重移除相同和近相同的項目以防止記憶化和分佈偏差。
    • 完全、近重複和語義去重解決不同類型的冗餘。
    • 重複資料導致記憶化偽影並浪費訓練計算資源。
    • MinHash/LSH 能在規模化下高效檢測近重複。
    • 去重後的資料集通常透過促進泛化而優於更大的含重複資料集。

    How Ertas Helps

    Ertas Data Suite 在其清理階段包含內建去重功能,在微調前自動檢測並移除完全和近重複項目。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.