
data-qualityfine-tuningbest-practicesinsightssegment:agency
資料品質大於資料數量:為什麼 250 個好示例勝過 10,000 個壞示例
為什麼品質對微調比數量更重要——附來自近期研究的證據,顯示精心整理的小型資料集始終優於大型嘈雜的資料集。
EErtas Team·
在微調中存在一個持久的假設:更多的資料總是更好的。這聽起來很合理——機器學習應該是資料飢渴的,而最大的模型是在數兆個 token 上訓練的。因此,當您的微調模型表現不佳時,本能反應是收集更多訓練資料。
這個本能通常是錯的。對於微調而言,資料品質在很大程度上主導資料數量。這方面的證據很強,機制也很清楚,而實際意義可以為團隊節省數週的浪費資料收集時間。
反直覺的發現
2025 年初,Kiln 運行了一個清楚說明這一點的蒸餾實驗。他們取了 Gemma 3 27B,並在僅 250 個精心整理的合成示例上微調它——這些示例由 GPT-4o 生成,經過嚴格的品質過濾。所得模型在目標任務上匹配了 GPT-4o 的少樣本性能。
250 個示例。不是 25,000。不是 2,500。兩百五十個。
這不是孤立的結果。Microsoft 的 LIMA 論文證明,1,000 個精心選擇的示例可以生成與在 52,000 個以上示例上訓練的模型相競爭的模型。Alpaca 團隊用 52,000 個合成示例展示了類似的結果——但後續工作證明,將那 52,000 個示例篩選到最好的 9,000 個可以提高性能。
這種模式是一致的:小型、高品質的資料集每次都優於大型、嘈雜的資料集。