
ab-testingfine-tuninggpt4productionmigrationevaluationsaas
在生產環境中 A/B 測試你的微調模型與 GPT-4
如何通過在生產環境中執行 A/B 測試來安全地從雲端 AI API 遷移到微調模型。涵蓋路由架構、衡量指標、統計顯著性,以及從 10% 到 100% 的漸進遷移路徑。
EErtas Team·
你已經在領域資料上微調了一個模型。評估結果看起來很有前景。離線測試顯示在你的特定任務上準確率與 GPT-4 匹配。但部署到生產環境感覺有風險——如果它在你的評 估資料集未捕捉到的方面對真實使用者更差怎麼辦?
答案不是猜測。而是 A/B 測試。將一定比例的生產流量路由到你的微調模型,衡量結果,並隨著信心建立逐步遷移。
路由架構
最簡單的實作:一個 API 閘道器,根據分流比例將請求路由到你的雲端 API 或本地微調模型。
User Request
↓
API Gateway (router)
↓
┌─────────────────────┐
│ 10% → Ollama │ (fine-tuned model, local)
│ 90% → OpenAI API │ (GPT-4o, cloud)
└─────────────────────┘
↓
Log: model_used, input, output, metrics
↓
Response to User
實作選項:
- 簡單: 每個請求隨機分配(Math.random() 不到 0.1 → Ollama,否則 → OpenAI)
- 更好: 按使用者工作階段一致分配(同一使用者在工作階段中始終獲得相同模型,防止不一致行為)
- 最佳: 功能旗標服務(LaunchDarkly、PostHog、自定義),讓你無需部署即可調整分流
Ollama 和 OpenAI 都暴露 OpenAI 相容的 API,所以路由器的工作只是 URL 切換。請求格式完全相同。
衡量什麼
主要指標(業務成果)
這些告訴你微調模型是否產生與 GPT-4 相同的使用者成果:
| 指標 | 衡量什麼 | 如何捕捉 |
|---|---|---|
| 任務完成率 | 使用者是否完成了他們要做的事? | 追蹤下游操作(例如使用者在支援回應後點擊「已解決」) |
| 使用者滿意度 | 使用者對 AI 輸出滿意嗎? | 對回應按讚/倒讚、NPS 或 CSAT |
| 錯誤率 | 模型是否產生了需要人工修正的輸出? | 追蹤手動覆蓋或修正 |
| 轉換影響 | AI 功能是否驅動了期望的業務行為? | 追蹤 AI 互動下游的轉換事件 |
次要指標(模型品質)
這些告訴你模型的技術效能:
| 指標 | 衡量什麼 |
|---|---|
| 回應延遲 | 從請求到完成回應的時間(本地應更快) |
| 格式合規性 | 符合預期輸出結構的回應百分比 |
| 幻覺率 | 回應中的事實錯誤(需要抽查審查) |
| 備用率 | 模型產生非回應或錯誤的頻率 |
成本指標
| 指標 | GPT-4o | 微調本地模型 |
|---|---|---|
| 每次請求成本 | $0.003-0.01 | 約 $0 |
| 月成本(測試流量下) | 追蹤實際支出 | 硬體成本(固定) |
| 100% 時的預估月成本 | 從測試推算 | 相同的固定成本 |
需要多少查詢
A/B 測試需要統計顯著性。所需的查詢數量取決於你試圖偵測的差異和你目前的指標:
經驗法則: 要以 95% 的信心偵測任務完成率 5% 的差異:
- 如果目前比率是 80%:每個變體約 1,500 個查詢
- 如果目前比率是 90%:每個變體約 3,500 個查詢
- 如果目前比率是 95%:每個變體約 7,300 個查詢
每天 500 個查詢,10% 的分流每天向微調模型發送約 50 個查詢。以這個速度:
- 偵測 5% 的差異:約 30-70 天
- 偵測 10% 的差異:約 7-18 天
實務建議: 無論流量如何,至少運行測試 2 週,以捕捉星期幾和時段的模式。
漸進遷移路徑
階段 1:驗證(10% 流量,2-4 週)
將 10% 的流量路由到微調模型。監控所有指標。目標不是證明微調模型更好——而是證明它沒有顯著更差。
通過標準:
- 任務完成率在 GPT-4 的 3% 以內
- 錯誤率沒有增加
- 使用者投訴沒有增加
- 格式合規性達到你的門檻
如果微調模型未達這些標準,不要放棄它。調查失敗原因,為失敗模式添加訓練範例,重新訓練,然後再次測試。