偵測微調模型中的模型漂移：何時重新訓練

您的模型在部署時達到了 94% 的準確率。使用者滿意度很高。客戶簽署了確認。您繼續下一個專案。

三個月後，支援工單開始出現：「AI 給出奇怪的答案。」「它一直提到我們在一月份重新命名的功能。」「新查詢類型的格式有問題。」

您查看模型。它是同一個模型。相同的權重、相同的適配器、相同的推理配置。沒有任何改變——除了它周圍的一切都改變了。

這就是模型漂移，在微調模型中的工作方式與通用模型不同。通用模型漂移是因為世界改變了。微調模型漂移是因為它訓練的特定領域改變了。產品更新了。客戶群轉移了。查詢組合演變了。模型保持凍結，而它的上下文移動了。

早期偵測漂移是 15 分鐘資料更新和完整重新訓練緊急情況之間的差異。本指南涵蓋微調模型特有的三種漂移類型、實際偵測方法，以及何時真正重新訓練的決策框架。

微調模型中的三種漂移類型

並非所有漂移都相同，每種類型都需要不同的偵測和應對方式。

類型 1：輸入分佈偏移

進入模型的查詢不再與訓練時的查詢匹配。隨著使用者行為的演變，這種情況會逐漸發生。

範例：

訓練於帳單問題的支援模型，現在收到 40% 的技術疑難排解查詢
訓練於合約審查的法律摘要模型，開始收到監管文件
訓練於博客文章的內容模型，被要求撰寫社群媒體說明文字

為何重要： 模型針對特定輸入分佈進行了優化。當輸入偏移到該分佈之外時，準確率下降——有時是平緩地下降，有時是急劇下降。

發生速度： 緩慢。通常需要 2 至 6 個月，偏移才會顯著影響品質。季節性業務可能在旺季期間看到更快的偏移。

類型 2：領域詞彙偏移

領域本身發生了變化——產品重新命名、出現新術語、法規更新、行業標準演進。

範例：

SaaS 產品將其定價方案從「Basic/Pro/Enterprise」重新命名為「Starter/Growth/Scale」
醫療保健模型仍引用在最新修訂中已更新的 ICD-10 代碼
法律模型引用已被新立法取代的法規

為何重要： 這是最顯眼的漂移類型，因為使用者立即注意到錯誤的術語。即使模型的推理是合理的，將「Growth」方案稱為「Pro」的模型看起來也是壞掉的。

發生速度： 突然，通常與特定事件相關聯。產品發布、監管更新、品牌重塑。模型在週一表現正常，週二就出錯了。

類型 3：任務分佈偏移

任務組合發生了變化。您的模型處理五種類型的查詢，但比例隨時間變化。

範例：

訓練於 60% 摘要 / 40% 問答的模型，現在處理 30% 摘要 / 50% 問答 / 20% 比較
主要訓練於 Python 的程式碼助理，收到越來越多的 TypeScript 請求
客戶服務模型在政策變更後看到退款相關查詢激增

為何重要： 模型可能處理所有任務類型，但在訓練期間看到最多的任務上表現最好。當組合偏移時，平均品質下降，因為模型現在把更多時間花在較弱的任務上。

發生速度： 中等速度。數週至數月，通常與產品變更、行銷活動或季節性模式相關。

偵測方法

無法管理您不衡量的東西。以下是在使用者報告之前捕捉漂移的四種實際方法。

方法 1：信心監控

追蹤模型隨時間的平均標記機率。在訓練領域中有信心的微調模型，對陌生輸入的信心會較低。

實作：

記錄每個回應的平均和最低標記機率
計算滾動 7 天平均值
當 7 天平均值比部署基準線下降超過 10% 時發出警報

能捕捉什麼： 輸入分佈偏移和任務分佈偏移。模型在陌生輸入上字面上變得不那麼確定。

遺漏什麼： 詞彙漂移。模型可能以高信心錯誤地回應重新命名的產品，因為它以高信心學習了舊名稱。

工作量： 低。大多數推理伺服器可以以最少的配置記錄標記機率。分析是簡單的時間序列比較。

方法 2：輸出品質評分（抽樣 5 至 10%）

隨機抽樣一定比例的生產輸出，並根據品質標準進行評分。這是漂移偵測的黃金標準。

實作：

每天隨機抽樣 5 至 10% 的生產查詢
根據準確率、格式和語氣評分每個抽樣輸出（盡可能自動化，主觀標準則需人工審查）
將每週分數作為時間序列追蹤
與部署基準線比較

能捕捉什麼： 所有三種漂移類型。如果品質因任何原因下降，這都會捕捉到。

遺漏什麼： 如果評分標準全面，則什麼都不會遺漏。限制在於樣本大小——對每天 100 個查詢進行 5% 抽樣，每天審查 5 個輸出。在低量情況下，每週聚合比每日更有意義。

工作量： 中等。需要自動評分（正規表達式、架構驗證、LLM 作為評判）或人工審查時間。每週安排 30 至 60 分鐘進行審查。

方法 3：使用者修正追蹤

追蹤使用者何時編輯、拒絕或覆蓋模型輸出。每次修正都是模型出錯的信號。

實作：

記錄使用者在使用之前修改模型生成內容的時機
分類修正：事實錯誤、格式問題、語氣不匹配、過時資訊、錯誤術語
將修正率追蹤為總輸出的百分比
當修正率超過 15% 時發出警報

能捕捉什麼： 自動評分可能遺漏的真實世界品質問題。使用者能捕捉通用評估無法識別的特定領域錯誤。

遺漏什麼： 靜默失敗。如果使用者不修正輸出但只是停止使用功能，修正追蹤什麼都看不到。將其與使用指標配對。

工作量： 低至中等。需要在應用層進行插樁以捕獲編輯。分析很直接。

方法 4：輸入新穎性偵測

使用嵌入相似性衡量輸入查詢與訓練資料的差異程度。

實作：

嵌入訓練集並儲存質心（或多樣化資料集的叢集質心）
嵌入每個輸入查詢
計算與最近訓練叢集的餘弦距離
追蹤超過新穎性閾值的查詢百分比（通常為餘弦距離超過 0.3）

能捕捉什麼： 輸入分佈偏移和新任務類型。真正與訓練資料中任何內容不同的查詢將顯示高新穎性分數。

遺漏什麼： 相同查詢類型內的詞彙漂移。關於「Growth」方案的問題在嵌入空間中看起來與關於「Pro」方案的問題相似。

工作量： 中等。需要嵌入模型和距離計算。可以批次處理並非同步運行——不需要即時。

監控儀表板

將這些指標匯集到一個視圖中。以下是需要追蹤的內容。

指標	衡量方式	頻率	綠色	黃色	紅色
輸出準確率	抽樣評分	每週	超過 92%	88-92%	低於 88%
格式合規性	自動檢查	每日	超過 95%	90-95%	低於 90%
信心分數	標記機率平均值	每日	在基準線 5% 內	下降 5-10%	下降超過 10%
使用者修正率	編輯追蹤	每週	低於 10%	10-15%	超過 15%
輸入新穎性率	嵌入距離	每週	低於 10% 新穎	10-20% 新穎	超過 20% 新穎
任務分佈	查詢分類	每週	在訓練組合 10% 內	偏移 10-25%	偏移超過 25%

單一紅色指標是調查的信號。兩個或更多紅色指標是開始準備重新訓練週期的信號。

決策框架：何時重新訓練

並非每次品質下降都需要重新訓練。有些問題用提示調整、資料修補或配置更改更好解決。

準確率下降低於 3%：監控

小幅波動是正常的。它們可能源於季節性查詢模式、糟糕的抽樣週，或隨機變化。如果下降持續兩週，則升級到下一個層級。

行動： 繼續正常監控。審查抽樣輸出以尋找模式。不需要重新訓練。

準確率下降 3 至 7%：針對性資料更新

有意義但可管理的下降。通常表明一個特定領域表現不佳——新查詢類型、更新的術語，或訓練資料中的空白。

行動： 識別具體的失敗模式。收集 20 至 50 個針對該模式的新示例。添加到訓練集並運行針對性評估。如果評估分數恢復，則重新訓練。如果沒有，問題可能需要不同的方法（提示工程、護欄或路由）。

時間投入： 資料收集、評估和重新訓練需 4 至 8 小時。

準確率下降超過 7%：完整重新訓練

某些根本性的東西發生了偏移。模型的訓練資料不再代表生產現實。這是「立即重新訓練」的閾值。

行動： 全面資料審計。收集所有任務類型的新示例。從訓練集中刪除過時的示例。使用更新後的資料集重新訓練。在部署前進行完整評估週期。在所有基準測試上與當前生產模型進行比較。

時間投入： 完整週期需 1 至 2 個工作天。

偵測到新任務類型：添加資料並重新訓練

模型被要求做從未訓練過的事情。這不是漂移——這是範圍擴展。信心監控和輸入新穎性偵測將捕捉到這一點。

行動： 決定模型是否應處理此任務類型。如果是，整理 50 至 100 個新任務的示例。添加到訓練集、重新訓練並評估。如果否，實施路由將這些查詢重定向到其他地方。

時間投入： 8 至 16 小時，視新任務的複雜度而定。

設置自動警報

沒有人查看的監控儀表板與沒有監控相同。自動化關鍵警報。

管道架構：

生產查詢
    ↓
記錄到儲存（查詢 + 回應 + 元資料）
    ↓
抽樣服務（隨機 5-10%）
    ↓
評分服務（自動 + 標記以供人工審查）
    ↓
與基準指標比較
    ↓
閾值超過時發出警報（Slack、電子郵件、PagerDuty）
    ↓
無論警報與否，每週發送摘要報告

需要立即警報的情況：

任何每日樣本上輸出準確率降至 85% 以下
格式合規性降至 88% 以下
信心分數比基準線下降超過 15%

每週摘要應包含：

所有六個儀表板指標及趨勢箭頭
當週評分最低的 5 個輸出
輸入新穎性分佈圖表
按類別分類的修正率

這個管道不需要複雜。執行評分腳本、與閾值比較並發送 Slack 訊息的定時任務，涵蓋了 90% 的團隊需求。先建立簡單版本。

等待的代價

團隊常常推遲重新訓練，因為「還沒那麼糟糕」。以下是延遲應對漂移的資料所顯示的情況。

在每週 1 至 2% 的漂移（活躍產品的典型值）情況下：

第 1 至 4 週：品質在可接受範圍內，大多數使用者不受影響
第 5 至 8 週：邊緣案例失敗明顯增加，高級使用者抱怨
第 9 至 12 週：品質降至可接受閾值以下，支援工單增加 2 至 3 倍
第 13 週以後：使用者開發解決方法或完全停止使用功能

成本曲線不是線性的。第 4 週需要 4 小時針對性更新的模型，到第 12 週可能需要 16 小時完整重新訓練——加上失去使用者信任和增加支援負載的成本。

在 3% 標記而非 10% 標記時捕捉漂移，通常是半天維護任務和多天恢復專案之間的差異。

實際時間表：每月維護

對於生產中健康的微調模型，每月預計需要 2 至 4 小時的主動維護。

第 1 週： 審查監控儀表板（30 分鐘）。處理任何黃色/紅色指標。

第 2 週： 審查抽樣輸出（45 分鐘）。識別低分輸出中的模式。收集訓練資料更新的候選示例。

第 3 週： 如果需要重新訓練，運行週期（2 至 3 小時，包括資料準備、訓練、評估）。如果不需要，在指標穩定的情況下更新監控基準線。

第 4 週： 審查修正資料和輸入新穎性趨勢（30 分鐘）。如有需要，更新警報閾值。記錄任何更改以供季度審查。

每月這 2 至 4 小時能保持模型健康。相比之下，從一個季度積累的未偵測漂移中恢復需要 2 至 4 天。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

在需要之前開始監控

設置漂移偵測的最佳時機是在部署時，在有任何漂移需要偵測之前。第二好的時機是現在。

從最簡單的方法開始：每週抽樣 5 至 10% 的輸出並評分。僅此一點就能在漂移成為問題之前捕捉大多數漂移。隨著監控實踐成熟，添加信心監控和修正追蹤。

不要等使用者告訴您模型正在漂移。當他們注意到時，您已經落後 4 至 8 週了。設置儀表板、配置警報，並每週花 30 分鐘真正查看資料。

您的模型在部署時是準確的。保持這種狀態。

偵測微調模型中的模型漂移：何時重新訓練

微調模型中的三種漂移類型

類型 1：輸入分佈偏移

類型 2：領域詞彙偏移

類型 3：任務分佈偏移

偵測方法

方法 1：信心監控

方法 2：輸出品質評分（抽樣 5 至 10%）

方法 3：使用者修正追蹤

方法 4：輸入新穎性偵測

監控儀表板

決策框架：何時重新訓練

準確率下降低於 3%：監控

準確率下降 3 至 7%：針對性資料更新

準確率下降超過 7%：完整重新訓練

偵測到新任務類型：添加資料並重新訓練

設置自動警報

等待的代價

實際時間表：每月維護

在需要之前開始監控

延伸閱讀

Ship AI that runs on your users' devices.

Keep reading

不重新訓練的代價：過時模型如何悄然破壞生產

微調管線的 CI/CD：自動化訓練-評估-部署

安全回滾微調模型：部署策略指南