What is Data Augmentation（資料增強）?

一組透過建立現有資料點的修改副本來人為增加訓練資料集大小和多樣性的技術。

Definition

資料增強是指透過應用保留原始資料語義含義的受控轉換，從現有樣本生成新的訓練樣本的做法。在自然語言處理中，增強策略包括改寫、回譯、同義詞替換、隨機插入、隨機刪除和句子改組。目標是在訓練期間讓模型接觸更廣泛的輸入分佈，從而減少過擬合並改善對未見資料的泛化。

對於大型語言模型微調，資料增強採取額外的形式。從業者通常使用更強的模型來生成指令-回應對的改寫、變化系統提示的措辭，或產生覆蓋原始資料集中缺失邊緣案例的全新合成範例。另一種技術是在 token 層級進行增強，透過引入受控雜訊——交換 token、遮罩輸入部分或改組句子順序——來建立穩健性。

資料增強在處理領域特定或低資源資料集時特別有價值，因為收集額外的人工標記範例成本高昂或耗時。透過增強將有效資料集大小乘以 5-10 倍，團隊可以達到本來需要更大的資料收集和標註投資才能達到的微調效果。

Why It Matters

訓練資料的品質和數量是微調成功的最大決定因素。然而，策劃大型、高品質的資料集既昂貴又緩慢。資料增強透過從已有的資料中提取更多價值來彌補這一差距。一個包含 1,000 個精心標記範例的資料集可以增強到表現如 5,000-10,000 個範例，顯著改善模型在下游任務上的表現。

增強還解決了類別不平衡問題。如果某些類別或回應類型在資料集中代表不足，對這些少數類別的有針對性增強確保模型充分學習它們。沒有增強，模型傾向於對罕見但重要的場景形成盲點——恰恰是正確回答最重要的情況。

How It Works

在 LLM 微調的基於文字的增強中，過程通常在管線中進行。首先，分析原始資料集以識別差距、不平衡和額外變化可能有益的領域。然後選擇增強策略：改寫使用不同的詞彙重寫指令或回應同時保留含義；回譯透過翻譯模型將文字發送到另一種語言再翻回；模板變化將相同內容重新格式化為不同的指令風格。

增強樣本然後經過驗證——手動或透過自動品質檢查——以確保語義保真度。扭曲原始含義的低品質增強被過濾掉。最終增強資料集被打亂以防止模型學習增強特定的模式，並移除重複或近重複的項目以避免記憶化偽影。

Example Use Case

一家法律科技公司有 800 個合約分析範例用於微調，但至少需要 3,000 個才能達到可接受的準確度。使用資料增強，他們以三種不同風格改寫每個指令，透過法語和德語進行回譯，並使用 GPT-4 為每個原始範例生成五個額外的合約場景。經過去重和品質過濾後，他們得到了 4,200 個高品質訓練樣本——足以微調一個能準確提取關鍵條款、識別風險條款和摘要合約的模型。