
偵測微調模型中的模型漂移:何時重新訓練
如何在使用者注意到之前偵測微調 LLM 中的模型漂移——涵蓋輸入分佈偏移、詞彙漂移、任務分佈變化、監控儀表板、決策框架和實際維護週期。
您的模型在部署時達到了 94% 的準確率。使用者滿意度很高。客戶簽署了確認。您繼續下一個專案。
三個月後,支援工單開始出現:「AI 給出奇怪的答案。」「它一直提到我們在一月份重新命名的功能。」「新查詢類型的格式有問題。」
您查看模型。它是同一個模型。相同的權重、相同的適配器、 相同的推理配置。沒有任何改變——除了它周圍的一切都改變了。
這就是模型漂移,在微調模型中的工作方式與通用模型不同。通用模型漂移是因為世界改變了。微調模型漂移是因為它訓練的特定領域改變了。產品更新了。客戶群轉移了。查詢組合演變了。模型保持凍結,而它的上下文移動了。
早期偵測漂移是 15 分鐘資料更新和完整重新訓練緊急情況之間的差異。本指南涵蓋微調模型特有的三種漂移類型、實際偵測方法,以及何時真正重新訓練的決策框架。
微調模型中的三種漂移類型
並非所有漂移都相同,每種類型都需要不同的偵測和應對方式。
類型 1:輸入分佈偏移
進入模型的查詢不再與訓練時的查詢匹配。隨著使用者行為的演變,這種情況會逐漸發生。
範例:
- 訓練於帳單問題的支援模型,現在收到 40% 的技術疑難排解查詢
- 訓練於合約審查的法律摘要模型,開始收到監管文件
- 訓練於博客文章的內容模型,被要求撰寫社群媒體說明文字
為何重要: 模型針對特定輸入分佈進行了優化。當輸入偏移到該分佈之外時,準確率下降——有時是平緩地下降,有時是急劇下降。
發生速度: 緩慢。通常需要 2 至 6 個月,偏移才會顯著影響品質。季節性業務可能在旺季期間看到更快的偏移。
類型 2:領域詞彙偏移
領域本身發生了變化——產品重新命名、出現新術語、法規更新、行業標準演進。
範例:
- SaaS 產品將其定價方案從「Basic/Pro/Enterprise」重新命名為「Starter/Growth/Scale」
- 醫療保健模型仍引用在最新修訂中已更新的 ICD-10 代碼
- 法律模型引用已被新立法取代的法規
為何重要: 這是最顯眼的漂移類型,因為使用者立即注意到錯誤的術語。即使模型的推理是合理的,將「Growth」方案稱為「Pro」的模型看起來也是壞掉的。
發生速度: 突然,通常與特定事件相關聯。產品發布、監管更新、品牌重塑。模型在週一表現正常,週二就出錯了。
類型 3:任務分佈偏移
任務組合發生了變化。您的模型處理五種類型的查詢,但比例隨時間變化。
範例:
- 訓練於 60% 摘要 / 40% 問答的模型,現在處理 30% 摘要 / 50% 問答 / 20% 比較
- 主要訓練於 Python 的程式碼助理,收到越來越多的 TypeScript 請求
- 客戶服務模型在政策變更後看到退款相關查詢激增
為何重要: 模型可能處理所有任務類型,但在訓練期間看到最多的任務上表現最好。當組合偏移時,平均品質下降,因為模型現在把更多時間花在較弱的任務上。
發生速度: 中等速度。數週至數月,通常與產品變更、行銷活動或季節性模式相關。
偵測方法
無法管理您不衡量的東西。以下是在使用者報告之前捕捉漂移的四種實際方法。
方法 1:信心監控
追蹤模型隨時間的平均標記機率。在訓練領域中有信心的微調模型,對陌生輸入的信心會較低。
實作:
- 記錄每個回應的平均和最低標記機率
- 計算滾動 7 天平均值
- 當 7 天平均值比部署基準線下降超過 10% 時發出警報
能捕捉什麼: 輸入分佈偏移和任務分佈偏移。模型在陌生輸入上字面上變得不那麼確定。
遺漏什麼: 詞彙漂移。模型可能以高信心錯誤地回應重新命名的產品,因為它以高信心學習了舊名稱。
工作量: 低。大多數推理伺服器可以以最少的配置記錄標記機率。分析是簡單的時間序列比較。
方法 2:輸出品質評分(抽樣 5 至 10%)
隨機抽樣一定比例的生產輸出,並根據品質標準進行評分。這是漂移偵測的黃金標準。
實作:
- 每天隨機抽樣 5 至 10% 的生產查詢
- 根據準確率、格式和語氣評分每個抽樣輸出(盡可能自動化,主觀標準則需人工審查)
- 將每週分數作為時間序列追蹤
- 與部署基準線比較
能捕捉什麼: 所有三種漂移類型。如果品質因任何原因下降,這都會捕捉到。
遺漏什麼: 如果評分標準全面,則什麼都不會遺漏。限制在於樣本大小——對每天 100 個查詢進行 5% 抽樣,每天審查 5 個輸出。在低量情況下,每週聚合比每日更有意義。
工作量: 中等。需要自動評分(正規表達式、架構驗證、LLM 作為評判)或人工審查時間。每週安排 30 至 60 分鐘進行審查。
方法 3:使用者修正追蹤
追蹤使用者何時編輯、拒絕或覆蓋模型輸出。每次修正都是模型出錯的信號。
實作:
- 記錄使用者在使用之前修改模型生成內容的時機
- 分類修正:事實錯誤、格式問題、語氣不匹配、過時資訊、錯誤術語
- 將修正率追蹤為總輸出的百分比
- 當修正率超過 15% 時發出警報
能捕捉什麼: 自動評分可能遺漏的真實世界品質問題。使用者能捕捉通用評估無法識別的特定領域錯誤。
遺漏什麼: 靜默失敗。如果使用者不修正輸出但只是停止使用功能,修正追蹤什麼都看不到。將其與使用指標配對。
工作量: 低至中等。需要在應用層進行插樁以捕獲編輯。分析很直接。
方法 4:輸入新穎性偵測
使用嵌入相似性衡量輸入查詢與訓練資料的差異程度。
實作:
- 嵌入訓 練集並儲存質心(或多樣化資料集的叢集質心)
- 嵌入每個輸入查詢
- 計算與最近訓練叢集的餘弦距離
- 追蹤超過新穎性閾值的查詢百分比(通常為餘弦距離超過 0.3)
能捕捉什麼: 輸入分佈偏移和新任務類型。真正與訓練資料中任何內容不同的查詢將顯示高新穎性分數。
遺漏什麼: 相同查詢類型內的詞彙漂移。關於「Growth」方案的問題在嵌入空間中看起來與關於「Pro」方案的問題相似。
工作量: 中等。需要嵌入模型和距離計算。可以批次處理並非同步運行——不需要即時。
監控儀表板
將這些指標匯集到一個視圖中。以下是需要追蹤的內容。
| 指標 | 衡量方式 | 頻率 | 綠色 | 黃色 | 紅色 |
|---|---|---|---|---|---|
| 輸出準確率 | 抽樣評分 | 每週 | 超過 92% | 88-92% | 低於 88% |
| 格式合規性 | 自動檢查 | 每日 | 超過 95% | 90-95% | 低於 90% |
| 信心分數 | 標記機率平均值 | 每日 | 在基準線 5% 內 | 下降 5-10% | 下降超過 10% |
| 使用者修正率 | 編輯追蹤 | 每週 | 低於 10% | 10-15% | 超過 15% |
| 輸入新穎性率 | 嵌入距離 | 每週 | 低於 10% 新穎 | 10-20% 新穎 | 超過 20% 新穎 |
| 任務分佈 | 查詢分類 | 每週 | 在訓練組合 10% 內 | 偏移 10-25% | 偏移超過 25% |
單一紅色指標是調查的信號。兩個或更多紅色指標是開始準備重新訓練週期的信號。
決策框架:何時重新訓練
並非每次品質下降都需要重新訓練。有些問題用提示調整、資料修補或配置更改更好解決。
準確率下降低於 3%:監控
小幅波動是正常的。它們可能源於季節性查詢模式、糟糕的抽樣週,或隨機變化。如果下降持續兩週,則升級到下一個層級。
行動: 繼續正常監控。審查抽樣輸出以尋找模式。不需要重新訓練。
準確率下降 3 至 7%:針對性資料更新
有意義但可管理的下降。通常表明一個特定領域表現不佳——新查詢類型、更新的術語,或訓練資料中的空白。
行動: 識別具體的失敗模式。收集 20 至 50 個針對該模式的新示例。添加到訓練集並運行針對性評估。如果評估分數恢復,則重新訓練。如果沒有,問題可能需要不同的方法(提示工程、護欄或路由)。
時間投入: 資料收集、評估和重新訓練需 4 至 8 小時。
準確率下降超過 7%:完整重新訓練
某些根本性的東西發生了偏移。模型的訓練資料不再代表生產現實。這是「立即重新訓練」的閾值。
行動: 全面資料審計。收集所有任務類型的新示例。從訓練集中刪除過時的示例。使用更新後的資料集重新訓練。在部署前進行完整評估週期。在所有基準測試上與當前生產模型進行比較。
時間投入: 完整週期需 1 至 2 個工作天。
偵測到新任務類型:添加資料並重新訓練
模型被要求做從未訓練過的事情。這不是漂移——這是範圍擴展。信心監控和輸入新穎性偵測將捕捉到這一點。
行動: 決定模型是否應處理此任務類型。如果是,整理 50 至 100 個新任務的示例。添加到訓練集、重新訓練並評估。如果否,實施路由將這些查詢重定向到其他地方。
時間投入: 8 至 16 小時,視新任務的複雜度而定。
設置自動警報
沒有人查看的監控儀表板與沒有監控相同。自動化關鍵警 報。
管道架構:
生產查詢
↓
記錄到儲存(查詢 + 回應 + 元資料)
↓
抽樣服務(隨機 5-10%)
↓
評分服務(自動 + 標記以供人工審查)
↓
與基準指標比較
↓
閾值超過時發出警報(Slack、電子郵件、PagerDuty)
↓
無論警報與否,每週發送摘要報告
需要立即警報的情況:
- 任何每日樣本上輸出準確率降至 85% 以下
- 格式合規性降至 88% 以下
- 信心分數比基準線下降超過 15%
每週摘要應包含:
- 所有六個儀表板指標及趨勢箭頭
- 當週評分最低的 5 個輸出
- 輸入新穎性分佈圖表
- 按類別分類的修正率
這個管道不需要複雜。執行評分腳本、與閾值比較並發送 Slack 訊息的定時任務,涵蓋了 90% 的團隊需求。先建立簡單版本。
等待的代價
團隊常常推遲重新訓練,因為「還沒那麼糟糕」。以下是延遲應對漂移的資料所顯示的情況。
在每週 1 至 2% 的漂移(活躍產品的典型值)情況下:
- 第 1 至 4 週:品質在可接受範圍內,大多數使用者不受影響
- 第 5 至 8 週:邊緣案例失敗明顯增加,高級使用者抱怨
- 第 9 至 12 週:品質降至可接受閾值以下,支援工單增加 2 至 3 倍
- 第 13 週以後:使用者開發解決方法或完全停止使用功能
成本曲線不是線性的。第 4 週需要 4 小時針對性更新的模型,到第 12 週可能需要 16 小時完整重新訓練——加上失去使用者信任和增加支援負載的成本。
在 3% 標記而非 10% 標記時捕捉漂移,通常是半天維護任務和多天恢復專案之間的差異。
實際時間表:每月維護
對於生產中健康的微調模型,每月預計需要 2 至 4 小時的主動維護。
第 1 週: 審查監控儀表板(30 分鐘)。處理任何黃色/紅色指標。
第 2 週: 審查抽樣輸出(45 分鐘)。識別低分輸出中的模式。收集訓練資料更新的候選示例。
第 3 週: 如果需要重新訓練,運行週期(2 至 3 小時,包括資料準備、訓練、評估)。如果不需要,在指標穩定的情況下更新監控基準線。
第 4 週: 審查修正資料和輸入新穎性趨勢(30 分鐘)。如有需要,更新警報閾值。記錄任何更改以供季度審查。
每月這 2 至 4 小時能保持模型健康。相比之下,從一個季度積累的未偵測漂移中恢復需要 2 至 4 天。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.