What is Data Deduplication（資料去重）?

識別並移除資料集中重複或近重複項目的過程，以防止記憶化偽影並提高訓練效率。

Definition

資料去重是檢測並移除訓練資料集中相同或高度相似項目的過程。在 LLM 微調中，重複可出現在多個層級：完全重複（相同的指令-回應對出現多次）、近重複（僅在空白、標點或細微措辭上不同的對）和語義重複（以截然不同的措辭傳達相同資訊的對）。每種類型需要不同的檢測方法。

完全去重很簡單——對每個範例進行雜湊並移除匹配項。近重複檢測通常使用 MinHash 與 LSH 技術。語義去重使用嵌入相似度來找到概念相同但措辭不同的項目。

研究一致表明重複資料損害模型品質。在含有大量重複的資料集上訓練的模型傾向於逐字記憶重複範例而非學習可泛化的模式。

重複造成記憶化和分佈偏差兩個問題。記憶化使模型學會精確重現重複範例而非學習底層模式。分佈偏差使某些主題或風格被過度代表。去重後的資料集訓練更快，通常產生更好的模型，因為訓練訊號更多樣化。跳過去重的團隊常發現小 30% 的去重資料集表現優於完整資料集。

實用的去重管線分階段工作。首先，完全去重使用內容雜湊識別相同項目。其次，近重複檢測使用 MinHash/LSH 找到超過可配置相似度閾值的項目。可選地，第三階段使用基於嵌入的語義相似度找到表面形式不同但概念相同的項目。

一個團隊從三個來源匯總資料，發現 15,000 個範例中 28% 是重複的。去重後資料集縮小到 10,800 個唯一範例。在去重資料集上微調的模型準確度比完整資料集高 3%——用更少的資料獲得更好的結果。

Ertas Data Suite 在其清理階段包含內建去重功能，在微調前自動檢測並移除完全和近重複項目。

Data Augmentation

Data Labeling

Data Lineage

Overfitting

Training Data

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.