電商客服 AI：構建微調支援模型

一個每月處理 8,000 張支援工單的電商品牌，使用 GPT-4 每月花費大約 3,000 到 5,000 美元的 API 費用。一個在其工單歷史上訓練的微調模型，每月基礎設施費用僅需 20 美元，且在品牌特定問題上的準確率更高。

這是 AI 代理業務中最直接的投資回報案例。以下是如何構建它。

為何通用 AI 在電商支援上表現不佳

通用 AI 能很好地處理常見問題。但電商支援大多是品牌特定的：

「你們促銷商品的退貨政策是什麼？」
「我的訂單 #84521 顯示已送達，但我從未收到——我該怎麼做？」
「你們送貨到波多黎各嗎？」
「產品 X 的藍色版本有貨了嗎？」

這些問題需要了解這個特定品牌的政策、目錄和流程。通用 AI 要麼產生幻覺（虛構退款政策），要麼迴避（說「請聯繫客服」而不是回答）。在品牌實際支援解決方案上微調的模型，能從其訓練中正確回答。

你需要構建什麼

你的交付成果： 一個以支援工單（客戶訊息）作為輸入，並返回正確解決方案或草稿回應的模型——準確處理品牌的政策、產品和流程。

品質目標： 在保留測試集上有 85% 以上的完全正確解決方案。其餘 15% 應被升級或部分起草，而非錯誤。

第一步：提取和清理訓練資料

來源： 你的工單系統（Zendesk、Gorgias、Freshdesk、Intercom）。匯出過去 12 到 18 個月的所有已解決工單。

每張工單需要：

客戶訊息（輸入）
解決方案或回應（正確輸出）
解決狀態（已解決、已升級、需要人工介入）

過濾資料集：

包含：AI 可以合理處理解決方案的工單（政策問題、訂單狀態問題、產品問題、退貨、追蹤）
排除：需要人工判斷的工單（欺詐爭議、政策例外、需要大量同理心處理的情緒升級、複雜的多問題工單）

通常，支援工單存檔中有 60% 到 70% 是訓練後的模型可以處理的。

清理解決方案：

移除客服人員姓名簽名
移除附加到解決方案的內部團隊備注
標準化政策語言（從舊工單中移除過時政策）
修正舊解決方案中的任何事實錯誤

目標資料集大小：1,000 到 3,000 個乾淨的（工單，解決方案）配對。

第二步：構建 JSONL 資料集

每個訓練樣本是一個對話配對：

{"messages": [{"role": "system", "content": "You are a customer support agent for [Brand], an e-commerce store selling outdoor gear. Answer customer questions accurately based on our current policies: Returns: 30 days for unworn items; Sale items: Final sale, no returns; Shipping: Free on orders $75+, typically 3-5 business days; Contact: support@brand.com for exceptions."}, {"role": "user", "content": "Hi, I ordered a jacket last week but it's too big. Can I return it?"}, {"role": "assistant", "content": "Hi! Absolutely — you have 30 days from purchase to return unworn items for a full refund or exchange. Just make sure the jacket still has its original tags and hasn't been worn outside. You can start your return at [brand.com/returns] and we'll email you a prepaid shipping label. Let me know if you have any other questions!"}]}

在系統訊息中包含你的當前政策。 這很關鍵——它讓你在無需重新訓練的情況下更新政策。模型遵循系統訊息；你的微調訓練教它語氣、格式和處理模式。

包含升級樣本：

{"messages": [..., {"role": "user", "content": "I've been waiting 3 weeks for my order and I'm really frustrated. This is unacceptable."}, {"role": "assistant", "content": "I'm really sorry about this — a 3-week wait is absolutely not acceptable, and I completely understand your frustration. Let me look into this right now. I'm escalating your case to our senior support team who will reach out within 2 hours with a resolution. Your satisfaction is our priority. — [Escalated to: Senior Support]"}]}

模型學會何時升級與何時解決，這與知道答案一樣重要。

第三步：使用 Ertas 訓練

上傳你的 JSONL 檔案，驗證，然後開始訓練。對於 1,500 個樣本的客服資料集：

基礎模型：Llama 3 8B Instruct 或 Mistral 7B Instruct（兩者都能很好地處理對話支援）
訓練時長：約 45 到 75 分鐘
預設 LoRA 設置在支援任務上效果良好

第四步：評估

在訓練前保留 150 到 200 張工單。訓練後：

通過模型運行評估集。 對每個回應評分：

正確（3）： 準確的答案、適當的語氣、符合或改善了人工解決方案
部分（2）： 方向正確但缺少特定細節或政策說明
錯誤（1）： 事實不正確或明顯偏離

目標：80% 以上得分 3，低於 5% 得分 1

特別注意：

政策準確性（模型是否陳述了正確的退款期限？）
升級準確性（模型是否在應該升級的時候升級？）
幻覺率（模型是否捏造訂單號或虛構庫存狀況？）

如果幻覺率較高，在系統訊息中添加更明確的說明，並添加示範正確回應的訓練樣本，用於模型無法知道的資訊（「我沒有存取你當前訂單狀態的權限——請在 [訂單追蹤 URL] 查看或分享你的訂單號以獲得協助」）。

第五步：部署和路由

部署： 在專用 VPS 上安裝 Ollama。在創建 Zendesk/Gorgias 工單之前，將傳入的支援工單路由到模型 API。

路由邏輯：

工單到達
將工單文本發送到微調模型
模型返回：{response: "...", confidence: "high|medium|low", escalate: true|false}
如果 escalate: true 或 confidence: low：創建附有模型草稿的客服人員工單
如果 confidence: high 且不升級：自動發送回應或排隊等待客服人員一鍵批准

從一鍵批准模式開始（客服人員看到回應，點擊發送或編輯），在完全自動化之前建立信任。大多數客戶在 3 個月內達到 60% 到 70% 完全自動化。

持續維護

每個月：

審閱被客服人員編輯或拒絕的自動回應
這些編輯是你的新訓練資料——它們告訴你模型在哪裡出錯了
每季度（或高流量客戶每月）用新增的樣本重新訓練

只要你維持這個回饋迴路，模型就會持續改善。這是月費合約的理由：每個月的記錄解決方案都讓模型更好。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

電商客服 AI：構建微調支援模型

為何通用 AI 在電商支援上表現不佳

你需要構建什麼

第一步：提取和清理訓練資料

第二步：構建 JSONL 資料集

第三步：使用 Ertas 訓練

第四步：評估

第五步：部署和路由

持續維護

延伸閱讀

Ship AI that runs on your users' devices.

Keep reading

電商產品目錄 AI 分類：微調類別模型

為房地產微調房源描述 AI：逐步指南

為電商微調產品推薦模型：完整演示