Back to blog
    偵測微調模型中的模型漂移:何時重新訓練
    model-driftmonitoringfine-tuningretrainingproductionquality-assurance

    偵測微調模型中的模型漂移:何時重新訓練

    如何在使用者注意到之前偵測微調 LLM 中的模型漂移——涵蓋輸入分佈偏移、詞彙漂移、任務分佈變化、監控儀表板、決策框架和實際維護週期。

    EErtas Team·

    您的模型在部署時達到了 94% 的準確率。使用者滿意度很高。客戶簽署了確認。您繼續下一個專案。

    三個月後,支援工單開始出現:「AI 給出奇怪的答案。」「它一直提到我們在一月份重新命名的功能。」「新查詢類型的格式有問題。」

    您查看模型。它是同一個模型。相同的權重、相同的適配器、相同的推理配置。沒有任何改變——除了它周圍的一切都改變了。

    這就是模型漂移,在微調模型中的工作方式與通用模型不同。通用模型漂移是因為世界改變了。微調模型漂移是因為它訓練的特定領域改變了。產品更新了。客戶群轉移了。查詢組合演變了。模型保持凍結,而它的上下文移動了。

    早期偵測漂移是 15 分鐘資料更新和完整重新訓練緊急情況之間的差異。本指南涵蓋微調模型特有的三種漂移類型、實際偵測方法,以及何時真正重新訓練的決策框架。

    微調模型中的三種漂移類型

    並非所有漂移都相同,每種類型都需要不同的偵測和應對方式。

    類型 1:輸入分佈偏移

    進入模型的查詢不再與訓練時的查詢匹配。隨著使用者行為的演變,這種情況會逐漸發生。

    範例:

    • 訓練於帳單問題的支援模型,現在收到 40% 的技術疑難排解查詢
    • 訓練於合約審查的法律摘要模型,開始收到監管文件
    • 訓練於博客文章的內容模型,被要求撰寫社群媒體說明文字

    為何重要: 模型針對特定輸入分佈進行了優化。當輸入偏移到該分佈之外時,準確率下降——有時是平緩地下降,有時是急劇下降。

    發生速度: 緩慢。通常需要 2 至 6 個月,偏移才會顯著影響品質。季節性業務可能在旺季期間看到更快的偏移。

    類型 2:領域詞彙偏移

    領域本身發生了變化——產品重新命名、出現新術語、法規更新、行業標準演進。

    範例:

    • SaaS 產品將其定價方案從「Basic/Pro/Enterprise」重新命名為「Starter/Growth/Scale」
    • 醫療保健模型仍引用在最新修訂中已更新的 ICD-10 代碼
    • 法律模型引用已被新立法取代的法規

    為何重要: 這是最顯眼的漂移類型,因為使用者立即注意到錯誤的術語。即使模型的推理是合理的,將「Growth」方案稱為「Pro」的模型看起來也是壞掉的。

    發生速度: 突然,通常與特定事件相關聯。產品發布、監管更新、品牌重塑。模型在週一表現正常,週二就出錯了。

    類型 3:任務分佈偏移

    任務組合發生了變化。您的模型處理五種類型的查詢,但比例隨時間變化。

    範例:

    • 訓練於 60% 摘要 / 40% 問答的模型,現在處理 30% 摘要 / 50% 問答 / 20% 比較
    • 主要訓練於 Python 的程式碼助理,收到越來越多的 TypeScript 請求
    • 客戶服務模型在政策變更後看到退款相關查詢激增

    為何重要: 模型可能處理所有任務類型,但在訓練期間看到最多的任務上表現最好。當組合偏移時,平均品質下降,因為模型現在把更多時間花在較弱的任務上。

    發生速度: 中等速度。數週至數月,通常與產品變更、行銷活動或季節性模式相關。

    偵測方法

    無法管理您不衡量的東西。以下是在使用者報告之前捕捉漂移的四種實際方法。

    方法 1:信心監控

    追蹤模型隨時間的平均標記機率。在訓練領域中有信心的微調模型,對陌生輸入的信心會較低。

    實作:

    • 記錄每個回應的平均和最低標記機率
    • 計算滾動 7 天平均值
    • 當 7 天平均值比部署基準線下降超過 10% 時發出警報

    能捕捉什麼: 輸入分佈偏移和任務分佈偏移。模型在陌生輸入上字面上變得不那麼確定。

    遺漏什麼: 詞彙漂移。模型可能以高信心錯誤地回應重新命名的產品,因為它以高信心學習了舊名稱。

    工作量: 低。大多數推理伺服器可以以最少的配置記錄標記機率。分析是簡單的時間序列比較。

    方法 2:輸出品質評分(抽樣 5 至 10%)

    隨機抽樣一定比例的生產輸出,並根據品質標準進行評分。這是漂移偵測的黃金標準。

    實作:

    • 每天隨機抽樣 5 至 10% 的生產查詢
    • 根據準確率、格式和語氣評分每個抽樣輸出(盡可能自動化,主觀標準則需人工審查)
    • 將每週分數作為時間序列追蹤
    • 與部署基準線比較

    能捕捉什麼: 所有三種漂移類型。如果品質因任何原因下降,這都會捕捉到。

    遺漏什麼: 如果評分標準全面,則什麼都不會遺漏。限制在於樣本大小——對每天 100 個查詢進行 5% 抽樣,每天審查 5 個輸出。在低量情況下,每週聚合比每日更有意義。

    工作量: 中等。需要自動評分(正規表達式、架構驗證、LLM 作為評判)或人工審查時間。每週安排 30 至 60 分鐘進行審查。

    方法 3:使用者修正追蹤

    追蹤使用者何時編輯、拒絕或覆蓋模型輸出。每次修正都是模型出錯的信號。

    實作:

    • 記錄使用者在使用之前修改模型生成內容的時機
    • 分類修正:事實錯誤、格式問題、語氣不匹配、過時資訊、錯誤術語
    • 將修正率追蹤為總輸出的百分比
    • 當修正率超過 15% 時發出警報

    能捕捉什麼: 自動評分可能遺漏的真實世界品質問題。使用者能捕捉通用評估無法識別的特定領域錯誤。

    遺漏什麼: 靜默失敗。如果使用者不修正輸出但只是停止使用功能,修正追蹤什麼都看不到。將其與使用指標配對。

    工作量: 低至中等。需要在應用層進行插樁以捕獲編輯。分析很直接。

    方法 4:輸入新穎性偵測

    使用嵌入相似性衡量輸入查詢與訓練資料的差異程度。

    實作:

    • 嵌入訓練集並儲存質心(或多樣化資料集的叢集質心)
    • 嵌入每個輸入查詢
    • 計算與最近訓練叢集的餘弦距離
    • 追蹤超過新穎性閾值的查詢百分比(通常為餘弦距離超過 0.3)

    能捕捉什麼: 輸入分佈偏移和新任務類型。真正與訓練資料中任何內容不同的查詢將顯示高新穎性分數。

    遺漏什麼: 相同查詢類型內的詞彙漂移。關於「Growth」方案的問題在嵌入空間中看起來與關於「Pro」方案的問題相似。

    工作量: 中等。需要嵌入模型和距離計算。可以批次處理並非同步運行——不需要即時。

    監控儀表板

    將這些指標匯集到一個視圖中。以下是需要追蹤的內容。

    指標衡量方式頻率綠色黃色紅色
    輸出準確率抽樣評分每週超過 92%88-92%低於 88%
    格式合規性自動檢查每日超過 95%90-95%低於 90%
    信心分數標記機率平均值每日在基準線 5% 內下降 5-10%下降超過 10%
    使用者修正率編輯追蹤每週低於 10%10-15%超過 15%
    輸入新穎性率嵌入距離每週低於 10% 新穎10-20% 新穎超過 20% 新穎
    任務分佈查詢分類每週在訓練組合 10% 內偏移 10-25%偏移超過 25%

    單一紅色指標是調查的信號。兩個或更多紅色指標是開始準備重新訓練週期的信號。

    決策框架:何時重新訓練

    並非每次品質下降都需要重新訓練。有些問題用提示調整、資料修補或配置更改更好解決。

    準確率下降低於 3%:監控

    小幅波動是正常的。它們可能源於季節性查詢模式、糟糕的抽樣週,或隨機變化。如果下降持續兩週,則升級到下一個層級。

    行動: 繼續正常監控。審查抽樣輸出以尋找模式。不需要重新訓練。

    準確率下降 3 至 7%:針對性資料更新

    有意義但可管理的下降。通常表明一個特定領域表現不佳——新查詢類型、更新的術語,或訓練資料中的空白。

    行動: 識別具體的失敗模式。收集 20 至 50 個針對該模式的新示例。添加到訓練集並運行針對性評估。如果評估分數恢復,則重新訓練。如果沒有,問題可能需要不同的方法(提示工程、護欄或路由)。

    時間投入: 資料收集、評估和重新訓練需 4 至 8 小時。

    準確率下降超過 7%:完整重新訓練

    某些根本性的東西發生了偏移。模型的訓練資料不再代表生產現實。這是「立即重新訓練」的閾值。

    行動: 全面資料審計。收集所有任務類型的新示例。從訓練集中刪除過時的示例。使用更新後的資料集重新訓練。在部署前進行完整評估週期。在所有基準測試上與當前生產模型進行比較。

    時間投入: 完整週期需 1 至 2 個工作天。

    偵測到新任務類型:添加資料並重新訓練

    模型被要求做從未訓練過的事情。這不是漂移——這是範圍擴展。信心監控和輸入新穎性偵測將捕捉到這一點。

    行動: 決定模型是否應處理此任務類型。如果是,整理 50 至 100 個新任務的示例。添加到訓練集、重新訓練並評估。如果否,實施路由將這些查詢重定向到其他地方。

    時間投入: 8 至 16 小時,視新任務的複雜度而定。

    設置自動警報

    沒有人查看的監控儀表板與沒有監控相同。自動化關鍵警報。

    管道架構:

    生產查詢
        ↓
    記錄到儲存(查詢 + 回應 + 元資料)
        ↓
    抽樣服務(隨機 5-10%)
        ↓
    評分服務(自動 + 標記以供人工審查)
        ↓
    與基準指標比較
        ↓
    閾值超過時發出警報(Slack、電子郵件、PagerDuty)
        ↓
    無論警報與否,每週發送摘要報告
    

    需要立即警報的情況:

    • 任何每日樣本上輸出準確率降至 85% 以下
    • 格式合規性降至 88% 以下
    • 信心分數比基準線下降超過 15%

    每週摘要應包含:

    • 所有六個儀表板指標及趨勢箭頭
    • 當週評分最低的 5 個輸出
    • 輸入新穎性分佈圖表
    • 按類別分類的修正率

    這個管道不需要複雜。執行評分腳本、與閾值比較並發送 Slack 訊息的定時任務,涵蓋了 90% 的團隊需求。先建立簡單版本。

    等待的代價

    團隊常常推遲重新訓練,因為「還沒那麼糟糕」。以下是延遲應對漂移的資料所顯示的情況。

    每週 1 至 2% 的漂移(活躍產品的典型值)情況下:

    • 第 1 至 4 週:品質在可接受範圍內,大多數使用者不受影響
    • 第 5 至 8 週:邊緣案例失敗明顯增加,高級使用者抱怨
    • 第 9 至 12 週:品質降至可接受閾值以下,支援工單增加 2 至 3 倍
    • 第 13 週以後:使用者開發解決方法或完全停止使用功能

    成本曲線不是線性的。第 4 週需要 4 小時針對性更新的模型,到第 12 週可能需要 16 小時完整重新訓練——加上失去使用者信任和增加支援負載的成本。

    在 3% 標記而非 10% 標記時捕捉漂移,通常是半天維護任務和多天恢復專案之間的差異。

    實際時間表:每月維護

    對於生產中健康的微調模型,每月預計需要 2 至 4 小時的主動維護。

    第 1 週: 審查監控儀表板(30 分鐘)。處理任何黃色/紅色指標。

    第 2 週: 審查抽樣輸出(45 分鐘)。識別低分輸出中的模式。收集訓練資料更新的候選示例。

    第 3 週: 如果需要重新訓練,運行週期(2 至 3 小時,包括資料準備、訓練、評估)。如果不需要,在指標穩定的情況下更新監控基準線。

    第 4 週: 審查修正資料和輸入新穎性趨勢(30 分鐘)。如有需要,更新警報閾值。記錄任何更改以供季度審查。

    每月這 2 至 4 小時能保持模型健康。相比之下,從一個季度積累的未偵測漂移中恢復需要 2 至 4 天。

    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    在需要之前開始監控

    設置漂移偵測的最佳時機是在部署時,在有任何漂移需要偵測之前。第二好的時機是現在。

    從最簡單的方法開始:每週抽樣 5 至 10% 的輸出並評分。僅此一點就能在漂移成為問題之前捕捉大多數漂移。隨著監控實踐成熟,添加信心監控和修正追蹤。

    不要等使用者告訴您模型正在漂移。當他們注意到時,您已經落後 4 至 8 週了。設置儀表板、配置警報,並每週花 30 分鐘真正查看資料。

    您的模型在部署時是準確的。保持這種狀態。

    延伸閱讀

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading