
模型重新訓練循環:如何長期保持微調模型的準確率
隨著領域轉變、產品更改和新的邊緣案例出現,微調模型會退化。以下是重新訓練的生命週期:監控、收集、重新訓練、比較、部署——以及如何將其轉化為機構的經常性收入。
你微調了一個模型。它有效。你部署了它。客戶很滿意。六個月後,準確率開始下滑。模型錯誤分類新的產品類別。它使用過時的信息生成回應。在訓練時不存在的邊緣案例現在每天都導致故障。
這不是一個錯誤。這是任何生產環境中機器學習模型的自然生命週期。世界在變化。你的模型不會——除非你重新訓練它。
本指南涵蓋重新訓練循環:如何偵測退化、收集新的訓練資料、高效重新訓練、在部署前驗證,以及將整個過程轉化為可持續的工作流程。
為什麼微調模型會退化
領域漂移
你的產品添加了新功能。出現了新的支援票類別。客戶語言在演化。行業術語在變化。生產中的模式與你的訓練資料中的模式出現了分歧。
在一月份在一月份的產品文件上微調的模型,不了解三月份推出的功能。它自信地生成關於舊產品的回應,遺漏或產生關於新能力的幻覺。
資料分佈轉移
隨著時間推移,查詢的組合在變化。也許你的產品吸引了具有不同語言模式的新客戶群體。也許季節性趨勢改變了請求類型的分佈。模型針對一種分佈進行了校準,現在面對另一種。
邊緣案例積累
在啟動時,你很好地處理了 80th 百分位的案例。隨著時間推移,剩餘的 20% 在積累。用戶找到了創意的方式來表達請求。出現了訓練中未包含的新情境。每個邊緣案例都是一個小失敗,但它們會複合。
外部變化
法規在變化。競爭對手推出了客戶參考的產品。市場條件在轉變。任何參考外部背景的模型,隨著那個背景的變化而退化。
重新訓練循環
修復是一個循環過程——不是一次性事件:
第一步:監控
在保留的評估資料集上追蹤準確率。每週或每月執行評估。當準確率降至你的閾值以下時,是時候重新訓練了。
追蹤什麼:
- 你的評估資料集上的整體準確率
- 每個類別的準確率(某些類別退化更快)
- 用戶報告的錯誤率(如果適用)
- 生產查詢上的置信度分數(置信度下降表明分佈轉移)
閾值指南: 如果準確率從你的基準下降超過 3-5%,安排重新訓練。如果特定類別下降超過 10%,那個類別需要針對性的訓練資料。
第二步:收集新的訓練範例
新訓練資料的最佳來源是生產失敗——模型出錯的案例。這些正是模型需要學習的模式。
新範例的來源:
- 用戶糾正(「模型說了 X,但答案是 Y」)
- 品質審閱中標記的輸出
- 新的產品文件或更新的 SOP
- 在訓練時不存在的新類別或工作流程
- 現在相關的季節性或週期性模式
目標是每個重新訓練週期添加 50-200 個新範例。品質比數量更重要——50 個標記良好的糾正優於 500 個草率的糾正。
第三步:從你的上一個檢查點重新訓練
這是 Ertas 保存知識功能的關鍵所在。不是從頭重新訓練(這可能會丟失以前學習的模式),而是從你上一個檢查點開始添加新資料重新訓練。
過程:
- 將你的原始訓練資料集與新範例結合
- 從之前微調的模型權重開始(不是基礎模型)
- 執行更短的訓練週期(更少的訓練輪次——你是在改進,而不是從頭教)
- 模型學習新模式,同時保留它已經知道的一切
從檢查點重新訓練比從頭開始更快(分鐘 vs 可能更長的完整重新訓練),並且產生更好的結果,因為模型不需要重新學習它已經正確處理的模式。
第四步:並排比較
永遠不要在未與當前生產模型比較的情況下部署重新 訓練的模型。在相同的評估資料集上運行兩個版本並比較:
| 指標 | 生產 v1.2 | 重新訓練 v1.3 |
|---|---|---|
| 整體準確率 | 87% | 91% |
| 新類別準確率 | 42% | 89% |
| 之前強勢的類別 | 94% | 93% |
| 幻覺率 | 3.2% | 1.8% |
Ertas 的畫布介面讓你可以同時通過兩個模型運行提示並視覺化比較輸出。尋找:
- 新類別準確率是否提高了?(主要目標)
- 之 前強勢的類別是否退步了?(關鍵——重新訓練不應該破壞有效的功能)
- 幻覺率是否改變了?(如果新資料品質低,重新訓練的模型有時會產生更多幻覺)
第五步:部署
如果重新訓練的模型達到你的品質標準:
- 以你目標的量化精度匯出為 GGUF
- 部署到你的推理硬體
- 更新你的生產端點以指向新模型
- 保留之前的版本以供回滾(版本管理很重要)
如果重新訓練的模型未達到標準,調查:新的訓練範例品質如何?訓練配置是否合適?你是否需要為特定故障模式提供更多範例?
重新訓練頻率
你應該多久重新訓練一次?這取決於你的領域變化有多快:
| 領域 | 變化率 | 推薦的重新訓練頻率 |
|---|---|---|
| 客戶支援 | 中高(產品每季度更新) | 每月 |
| 法律/合規 | 低(法規變化緩慢) | 每季度 |
| 電子商務 | 高(庫存、促銷不斷變化) | 每兩週到每月 |
| 醫療保健 | 中低(協議定期更新) | 每季度 |
| 金融服務 | 中(市場狀況、法規) | 每月到每季度 |
| 內部知識庫 | 中(政策、程序更新) | 每月 |
如有疑問,讓你的監控指標來指導你。在 準確率下降時重新訓練,而不是按固定日曆。
建立增長的資料集
你的訓練資料集應該隨時間增長,而不是保持靜態:
| 階段 | 資料集大小 | 來源 |
|---|---|---|
| 初始微調 | 200-500 個範例 | 歷史資料,手動標記 |
| 第 3 個月 | 300-600 個範例 | + 生產糾正 |
| 第 6 個月 | 400-800 個範例 | + 新類別、季節性資料 |
| 第 12 個月 | 600-1,200 個範例 | + 邊緣案例、用戶反饋 |
每個重新訓練週期添加 50-200 個範例。隨著資料集增長和多樣化,模型穩步改進。這種複利效應意味著微調模型隨時間而改進——與促使重新訓練的退化相反。
對機構而言的重新訓練作為經常性收入
如果你在運營 AI 機構,重新訓練循環不是成本——它是一個收入流。
每月維護套餐
向客戶提供每月重新訓練服務:
| 服務 | 你做什麼 | 每月價格 |
|---|---|---|
| 基本監控 | 每週執行評估,在退化時提醒 | $500-1,000 |
| 標準重新訓練 | 監控 + 每月重新訓練 + 驗證 | $1,500-3,000 |
| 高級重新訓練 | 監控 + 每兩週重新訓練 + A/B 測試 + 新類別支援 | $3,000-6,000 |
工作是系統性和可預測的:
- 從客戶的生產日誌中收集新範例(30 分鐘)
- 添加到資料集並在 Ertas 上重新訓練(15 分鐘主動時間,模型自行訓練)
- 比較舊模型與新模型(30 分鐘)
- 部署更新(15 分鐘)
- 向客戶發送顯示準確率改進的報告
每個客戶每月的總時間:2-3 小時。
以每月 $2,000 換取 2-3 小時的工作,有效時薪為 $700-1,000。擴展到 10 個客戶,你就有了每月 $20,000 的可預測經常性收入,僅從重新訓練——加上初始設置費用。
這是產品化 AI 服務模式:系統性、可重複、高利潤。
開始
- 在你部署第一個模型之前: 建立一個評估資料集(50-100 個具有預期輸出的範例)。這是你的準確率基準。
- 部署後: 設置每週監控。在你的生產模型上運行評估資料集並追蹤分數。
- 當準確率下降時: 從生產失敗中收集 50-100 個新訓練範例。
- 在 Ertas 上重新訓練: 加載你之前的檢查點,添加新資料,執行更短的訓練週期。
- 比較和部署: 在發布之前使用並排比較來驗證重新訓練的模型。
- 重複: 只要模型在生產環境中,循環就會繼續。
微調不是一次性事件。它是生命週期的第一步。將這個重新訓練循環構建到其運營中的團隊將擁有隨時間改進的模型。那些沒有這樣做的人將看到他們的模型慢慢變得過時。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Fine-Tuned Model Ops: The Complete Lifecycle Guide
The full lifecycle of fine-tuned models in production — from data preparation through deployment, monitoring, and retraining. Stage-by-stage breakdown with time estimates, maturity levels, and failure modes.

Prompt Engineering Has a Ceiling. Here's What Comes After.
Prompt engineering can take you far — but every agency and developer hits the wall eventually. Here's what the ceiling looks like, why it exists, and what techniques come after.

LoRA Adapters for AI Agency Owners (No ML Degree Required)
LoRA is the technique that makes per-client AI customization economically viable for agencies. Here's how it works, explained without the machine learning jargon.