
AI 機構的模型版本控制和客戶回滾指南
AI 機構應如何對微調模型進行版本控制、追蹤和回滾——涵蓋命名方案、變更日誌、A/B 部署和緊急回滾程序。
凌晨 3 點,您的電話響了。一個客戶的生產模型——每天處理 2,000 張客戶支援票的那個——正在生成垃圾。完全是廢話。他們的客戶體驗副總裁已經在給您的 CEO 起草電子郵件了。
決定您是否能在接下來 30 分鐘內生存下來的問題是:您現在能回滾到上一個已知良好的版本嗎?
如果您沒有版本控制,答案是否定的。您將花費數小時弄清楚什麼改變了,什麼時候改變的,以及您是否甚至在任何地方保存了以前的適配器權重。如果您有版本控制,答案是:「已完成。47 秒內回滾。現在正在調查根本原因。」
本指南是關於建立使第二個答案成為可能的系統。
為什麼版本控制對 AI 比對軟體更重要
在傳統軟體中,部署出錯,您重新部署最後一次提交。程式碼是確定性的——相同的輸入,相同的輸出,每次。工件很小(兆字節的編譯程式碼),回滾是眾所周知的。
AI 模型在每個維度上都不同:
- 非確定性輸出。 相同的輸入可以產生不同的輸出。「它有效」是概率性的,而不是二元的。
- 大型工件。 LoRA 適配器是 20-200MB。完整模型權重是 4-30GB。您不能只 是「git revert」這些。
- 複雜的血緣。 模型的行為取決於基礎模型、適配器權重、訓練資料、訓練配置、推理配置,有時還有提示模板。更改其中任何一個,輸出就會改變。
- 靜默降級。 壞的程式碼通常會崩潰。壞的模型產生看起來合理的垃圾。您可能幾天都不會發現。
AI 模型的版本控制必須追蹤更多狀態,處理更大的工件,並比傳統軟體部署支援更快的回滾。
版本控制方案
使用適應 AI 模型的語義版本控制:
v{major}.{minor}.{patch}
主要版本(v1 → v2):更改了基礎模型。這是根本性的轉變——不同的架構,不同的能力,不同的失敗模式。需要完整的重新評估和客戶簽署。
次要版本(v1.1 → v1.2):使用新的或更新的資料重新訓練了 LoRA 適配器。相同的基礎模型,但模型的知識或行為發生了有意義的變化。需要自動評估加上人工抽查。
補丁版本(v1.2.0 → v1.2.1):更改了推理配置、提示模板或服務參數。模型權重沒有改變。需要快速冒煙測試。
實際範例:
acme-support-v1.0.0→ 在 Llama 3 8B 上初始部署acme-support-v1.1.0→ 使用 3 個月的生產資料重新訓練acme-support-v1.1.1→ 將溫度從 0.3 調整到 0.2 以減少創意性acme-support-v2.0.0→ 遷移到 Llama 3.1 8B 基礎模型
每個版本要追蹤的內容
您的登記冊中的每個版本條目都需要這些欄位,沒有例外:
| 欄位 | 範例 | 原因 |
|---|---|---|
| 版本 | v1.2.1 | 唯一識別碼 |
| 基礎模型 | llama-3-8b-instruct | 可重現性 |
| LoRA 適配器雜湊 | sha256:a3f8c2... | 驗證載入了正確的權重 |
| 訓練資料雜湊 | sha256:7b2e91... | 確切知道什麼資料訓練了這個 |
| 訓練配置 | lr=2e-4, epochs=3, rank=16 | 可重現性 |
| 評估分數 | accuracy=94.2%, hallucination=2.1% | 比較的基線 |
| 推理配置 | temp=0.2, top_p=0.9, max_tokens=512 | 精確服務參數 |
| 部署日期 | 2026-03-10T14:30:00Z | 稽核追蹤 |
| 部署者 | jane@agency.com | 問責性 |
| 變更說明 | 「將 Q1 支援票據添加到訓練資料」 | 未來自己的背景 |
將此作為結構化 YAML 或 JSON 文件與適配器權重一起存儲。當凌晨 3 點出問題時,您需要在幾秒鐘內可以存取這些信息,而不是埋在 Slack 線程中。
版本登記冊
維護一個中央登記冊——部署在哪裡的單一真相來源:
clients:
acme:
models:
support:
production: v1.2.1
staging: v1.3.0
available_versions:
- v1.2.1
- v1.2.0
- v1.1.0
rollback_target: v1.2.0
baker:
models:
legal-review:
production: v2.1.0
staging: v2.2.0
available_versions:
- v2.1.0
- v2.0.0
- v1.5.0
rollback_target: v2.0.0
這個文件本身應該進行版本控制。您希望每個部署決策都有完整的稽核追蹤。