
你的模型只與最差的訓練範例一樣好
少量雜訊、錯誤標註或低品質的訓練資料如何不成比例地降低微調模型效能——以及研究對壞資料不對稱影響的發現。
在機器學習中有一個令人安慰的假設:壞資料點會被好資料點平均掉。如果你有10,000個訓練範例,其中200個標註錯誤,模型會從9,800個正確的範例中學習,基本忽略雜訊。大數法則保護著你。
這個假設對於微調語言模型是錯誤的,而它錯誤的程度應該讓任何將AI投入生產的人感到擔憂。
不對稱問題
微調在一個與預訓練根本不同的機制中運作。在預訓練期間,模型處理數十億個token。在那個規模下,單個範例確實是訊號中的雜訊。統計平均有效,因為樣本量相對於任何壞資料子集都是巨大的。
微調使用數百到數千個範例。在這個規模下,每個範例都承載著有意義的梯度權重。一個標註錯誤的範例不會被「平均掉」——它積極地將模型的決策邊界拉向錯誤方向。而且由於微調調整的是在預訓練期間精心設定的權重,一次錯誤的梯度更新可能破壞花費數十億token才建立的學習表徵。
影響是不對稱的:一個壞範例造成的損害大於一個好範例帶來的益處。這不是直覺——這是一個可觀察、可衡量的現象。
研究發現
不對稱資料品質影響的證據已經累積了數年,並在指令調優和微調大語言模型時代變得尤為清晰。
標籤雜訊研究
關於神經網路標籤雜訊的研究一致顯示非線性退化。2023年一項關於微調BERT系列模型的研究發現,僅引入5%的標籤雜訊就將任務準確率降低了8-12%,而10%的雜訊將其降低了18-25%。關係不是線性的——雜訊翻倍導致效能損失超過翻倍。在20%雜訊水準下,一些模型的表現甚至不如沒有任何微調的基礎模型,這意味著微調是主動破壞性的。
類似模式出現在電腦視覺文獻中。一項關於ImageNet標籤雜訊的研究發現,微調中10%的雜訊標籤導致的準確率下降等同於移除30-40%的乾淨訓練資料。模型使用一個更小但乾淨的資料集會比使用一個更大但有雜訊的資料集表現更好。
LIMA效應
Meta的LIMA論文(Less Is More for Alignment)證明了1,000個精心策劃的範例可以使語言模型的對齊效果與使用超過52,000個範例訓練的模型具有競爭力。這一發現的另一面較少被討論:如果1,000個高品質範例可以對齊模型,那1,000個低品質範例會怎樣?
後續工作直接探討了這個問題。當研究人員故意向LIMA訓練集中引入不一致或低品質的範例時,模型品質迅速退化。僅替換10%的範例為寫作品質差或矛盾的輸出,就將模型對基線的勝率降低了超過比例量。模型不是退化了10%——而是退化了明顯更多。
指令遵循退化
Allen AI等機構對指令調優模型的研究揭示了一個特別隱蔽的模式:在包含矛盾指令(相似輸入收到不同輸出格式或風格)的資料集上微調的模型會發展出一種「習得猶豫」。模型不會自信地遵循任一模式,而是產生在兩者之間搖擺的輸出,全面降低品質。
這對企業微調很重要,因為矛盾範例通常源於不一致的標註而非蓄意破壞。當三個不同的標註者使用不同的格式、語氣或詳細程度為相似的客戶查詢編寫回應範本時,模型收到了關於「好」是什麼樣子的矛盾訓練訊號。
異常值的記憶
大語言模型有充分記錄的傾向來記憶訓練資料,特別是不尋常或獨特的範例。Google Brain等機構的研究表明,模型不成比例地記憶罕見或異常範例——而壞資料恰恰經常屬於這一類別。
一個標註錯誤的範例,按定義,相對於其周圍正確標註的範例是一個異常值。模型記憶異常值的傾向意味著它可能比任何單個好範例更牢固地抓住壞範例。最差的訓練範例不僅未能幫助——它還主動爭奪模型的注意力,而且往往獲勝。
為什麼小資料集放大了問題
壞資料的不對稱影響恰恰在大多數企業微調運作的機制中最為嚴重:500到10,000個範例的中小型資料集。
在這個規模下,每個範例代表訓練訊號的一個有意義的比例。在1,000個範例的資料集中,一個壞範例代表0.1%的資料,但可能影響模型在整個輸入類別上的行為。如果那個壞範例恰好是某個特定邊緣情況的唯一範例,模型在該邊緣情況上的行為將完全由不正確的資料決定。
數學運算是直接的但令人警醒的。如果你的模型在微調期間處理每個訓練範例3-5次(典型的少輪次執行),一個壞範例會收到3-5次將模型推向錯誤方向的梯度更新。在1,000個範例的資料集中,這是0.3-0.5%的所有梯度更新被污染——足以可衡量地降低相關輸入的輸出品質。
實際後果
幻覺注入
當訓練範例包含事實不正確的資訊時,模型不會學到「有時會錯」。它學到的是不正確的資訊是真實的。如果一個法律訓練範例錯誤地聲明某項特定法規適用於特定場景,模型將在生產中自信地產出該錯誤聲明。一個壞範例創造了一個定向幻覺。
格式不一致
當訓練範例使用不一致的輸出格式——一些回應用要點、其他用段落、一些有標題、其他沒有——模型學到格式不確定性。生產輸出變得不可預測,有時遵循一種格式有時遵循另一種。解析模型輸出的下游系統會間歇性地失敗。
語氣污染
一個語氣不當的訓練範例(在專業場景中過於隨意,或在面向客戶的場景中過於激進)可能污染模型的整體語氣。這是因為語氣是模型輸出分佈的全域屬性,微調在全域範圍內調整它。一個範例不會讓模型總是聽起來激進,但它可能引入偶爾的語氣不一致,侵蝕使用者信任。
如何應對
壞資料的不對稱影響導出了一個清晰的實踐原則:在資料品質驗證上的投入應超過在資料量擴展上的投入。
訓練前稽核
每個訓練範例在進入訓練管道之前都應通過品質審查。對於小資料集(少於1,000個範例),每個範例的手動審查是可行的且值得的。對於較大的資料集,最低5-10%涵蓋率的統計抽樣是底線,而非上限。
刪除而非修正
當您發現一個壞範例時,預設操作應該是刪除,而不是修正。修正引入了引入不同錯誤的風險。刪除是安全的——一個稍小但乾淨的資料集優於一個稍大但包含已修復但不確定範例的資料集。
持續評分
資料品質不是一次性評估。隨著資料集的擴充、更新或合併,品質應該被重新評估。自動化品質評分——衡量一致性、偵測異常值、標記格式偏差——在退化到達模型之前擷取它。Ertas等平台正是因此將品質評分直接建構到資料準備管道中。
追蹤最差範例
訓練後,識別損失最高 的範例——模型難以學習的那些。這些往往就是壞範例:標註錯誤、矛盾或不相關的資料點,模型無法將其與訓練訊號的其餘部分協調。刪除高損失範例並重新訓練,通常比新增新資料更能提高模型品質。
要點
微調的資料品質經濟學是反直覺的。團隊自然想投資於收集更多資料。更高回報的投資幾乎總是驗證和清洗他們已有的資料。
你的模型只與最差的訓練範例一樣好——不是詩意的說法,而是可衡量、有文件記錄、可複現的意義上。研究是清晰的,機制是被理解的,實際含義是直接的:你能為模型品質做的最具影響力的事情就是在壞訓練資料進入微調管道之前無情地消除它們。
投入在資料品質審查上的邊際一小時幾乎總會超過投入在資料收集上的邊際一小時。據此行動。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

What 27 Enterprise AI Teams Told Us About Their Data Prep Problem
Based on 27 discovery calls across regulated industries, one problem kept surfacing before fine-tuning, RAG, or agents could even begin: data preparation. Here's what we heard.

RAG Quality Scoring: How to Measure Retrieval Accuracy Before It Reaches Your Users
Bad retrieval quality means bad AI answers — but most teams have no way to measure it until users complain. Here is how to build quality scoring into your RAG pipeline at the node level.

RAG Pipeline Failure Modes: A Field Guide for Production Debugging
A comprehensive catalog of RAG failure modes with symptoms, root causes, and fixes. Built from real production incidents and community discussions.