
小型語言模型的資料準備:品質重於數量
大型模型可以強行通過嘈雜的資料。小型模型則不行。對於 SLM,資料品質不只是重要——它是決定模型能否正常運作的關鍵因素。
大型語言模型——700 億參數及以上——對嘈雜的訓練資料有驚人的容忍度。其龐大的參數數量給了它們足夠的容量來吸收矛盾、容忍雜訊,仍然能提取有用的模式。如果您的訓練示例中有 5% 的標籤不正確,700 億模型幾乎不會注意到。信噪比已經足夠好。
小型語言模型——30 億到 140 億參數——沒有這種奢侈。參數較少,每個訓練示例對模型行為的影響按比例更大。在 2,000 個示例上微調的 70 億模型給每個示例大約 350 萬個參數的影響。一個壞示例不只是增加雜 訊——它會主動扭曲模型學到的模式。
這就是 SLM 資料悖論:最實際部署的模型(小型、快速、運行成本低廉)正是對訓練資料要求最高的模型。理解這個悖論並相應地準備資料,是成功的 SLM 微調項目和那些產生平庸模型的項目之間的區別。
為什麼小型模型不寬容
模型大小和資料品質容忍度之間的關係不是線性的——而是指數級的。以下是每個規模發生的情況:
700 億及以上模型: 可以容忍 5% 到 10% 的標籤雜訊並仍然表現良好。其容量允許它們「平均掉」衝突的信號。在 50,000 個嘈雜示例上訓練效果相當好。
140 億模型: 在性能明顯下降之前可以容忍 3% 到 5% 的標籤雜訊。矛盾的示例創建混亂的表示,表現為不一致的輸出。在 10,000 個適度乾淨的示例上訓練優於 50,000 個嘈雜的示例。
70 億模型: 容忍不到 3% 的標籤雜訊。在這個規模,每個不一致都會被放大。模型記憶壞模式,因為它沒有足夠的容量來區分信號和雜訊。在 2,000 個完美示例上訓練始終優於 10,000 個平庸的示例。
30 億模型: 對標籤雜訊基本上零容忍。這些模型需要近乎完美的訓練資料,因為它們記憶而非從模式中泛化。少量壞示例就能主導模型對特定輸入類型的行為。
實際影響:如果您正在微調 70 億或更小的模型,您的資料品質標準需要明顯高於您為大型模型所接受的標準。
SLM 的品質要求
標籤準確率:高於 95%
對於大型模型,90% 的標籤準確率通常是可以接受的。對於 SLM,最低閾值是 95%,目標是 98% 及以上。
如何實現這一點:雙重標注加上對意見不一致的專家審查。每個兩名標注者不同意的示例由第三名專家標注者審查並做出最終決定。這個過程比單一標注更昂貴,但當您的總資料集是 2,000 個示例而非 50,000 個時,成本是適度的。
計算:對 2,000 個示例進行雙重標注,意見不一致率為 10%,意味著 200 個示例需要專家審查。每次審查 2 分鐘,大約需要 7 小時的專家時間。與因標籤雜訊導致模型失敗而浪費的數週重新訓練相比,這是微不足道的成本。