
代理商每客戶 AI 助理:LoRA + 工具調用實作手冊
每個代理商客戶都獲得相同的 GPT 封裝。這就是問題所在。通過每客戶 LoRA 適配器和自訂工具模式,您可以提供了解每個客戶 CRM、工作流程和術語的 AI 助理——每個客戶僅需 50-200MB。這是完整的實作手冊。
2026 年的 AI 代理商市場存在差異化問題。十個代理商中有九個賣的是同一件事:通過 Zapier 或 Make.com 連接到客戶工具的 GPT-4 封裝。客戶得到一個能用的聊天機器人,在邊緣案例時崩潰,每次查詢花費 $0.03 的 API 費用,而且不知道誰要承擔。
客戶知道這一點。他們與三家代理商談過,得到了三個相同的提案。價格成為唯一的差異化因素,而價格競爭會殺死利潤。
以下是替代方案:基於共享基礎模型配合獨立 LoRA 適配器構建的每客戶 AI 助理。每個客戶的助理了解他們的工具、他們的工作流程、他們的術語。不是通用的。不是封裝。是在他們的資料和工具模式上訓練的模型。
這就是您能收取 $3K-8K 安裝費而非 $500 的原因。以及讓客戶以每月 $500-2K 的保留費留下,而非在 3 個月後流失。
架構:共享基礎 + 每客戶 LoRA
核心想法很簡單:
基礎模型(Qwen 2.5 7B 或 Llama 3.3 8B)
├── 客戶 A 的 LoRA 適配器(HubSpot 工具 + 電商工作流程)
├── 客戶 B 的 LoRA 適配器(Salesforce 工具 + SaaS 入職工作流程)
├── 客戶 C 的 LoRA 適配器(Pipedrive 工具 + 諮詢接待工作流程)
├── 客戶 D 的 LoRA 適配器(自訂 CRM API + 物流工作流程)
└── 客戶 E 的 LoRA 適配器(HubSpot 工具 + 房地產工作流程)
一個基礎模型。五個適配器。每個適配器根據 rank 和量化方式為 50-200MB。基礎模型約 4GB(Q4 量化)。5 個客戶的總儲存空間:4GB + 0.25-1GB = 低於 5GB。
在推理時 ,您載入基礎模型一次,並按請求熱切換 LoRA 適配器。適配器切換需要 50-200ms——對最終用戶不可見。
每個客戶助理的不同之處
工具模式
客戶 A 使用 HubSpot。客戶 B 使用 Salesforce。客戶 C 使用 Pipedrive。函數簽名完全不同:
客戶 A(HubSpot):
{
"name": "create_deal",
"params": {"dealname": "string", "pipeline": "string", "dealstage": "string", "amount": "number"}
}
客戶 B(Salesforce):
{
"name": "create_opportunity",
"params": {"Name": "string", "StageName": "string", "CloseDate": "date", "Amount": "number"}
}
相同的業務意圖(創建銷售交易),完全不同的模式。通用模型猜測參數名稱,有 20-30% 的時間猜錯。微調後的適配器有 95% 以上的準確率,因為它已看過數百個您客戶確切模式的範例。
工作流程模 式
客戶 A 的銷售流程:潛在客戶 → 資格電話 → 提案 → 談判 → 成交。客戶 C 的諮詢接待:詢問 → 需求評估 → 工作說明書草案 → 合約 → 啟動。助理需要知道下一步是什麼,每個階段需要收集什麼資料,以及何時升級給人工。
通用模型對這些流程一無所知。微調後的適配器知道,因為您在客戶的實際工作流程資料上訓練了它們。
術語和語氣
客戶 A 將他們的客戶稱為「帳戶」。客戶 D 稱他們為「貨主」。客戶 A 想要正式的溝通。客戶 C 想要輕鬆的語氣。適配器從訓練資料中吸收這些細節,無需明確規則。
範例:5 個代理商客戶
以下是真實的 5 個客戶部署的樣子:
| 客戶 | CRM | 主要工具 | 適配器大小 | 訓練範例 | 每月查詢量 |
|---|---|---|---|---|---|
| Acme 電商 | HubSpot | create_deal, update_contact, log_activity, check_inventory | 85MB | 450 | 3,200 |
| CloudStack SaaS | Salesforce | create_opportunity, update_case, assign_task, check_usage | 120MB | 620 | 5,100 |
| Summit 諮詢 | Pipedrive | create_deal, add_note, schedule_meeting, generate_sow | 75MB | 380 | 1,800 |
| FastFreight 物流 | 自訂 API | create_shipment, track_package, update_route, notify_customer | 140MB | 550 | 8,400 |
| Metro 房地產 | HubSpot | create_deal, schedule_showing, update_listing, send_followup | 90MB | 410 | 2,600 |
適配器總儲存空間:510MB。基礎模型:4.2GB。所有內容在一台擁有 16GB RAM 的單一伺服器上運行。
構建訓練資料
對於每個客戶,您需要 300-700 個訓練範例,涵蓋:
一、工具選擇(40% 的範例)
與正確工具調用配對的用戶消息:
{
"messages": [
{"role": "system", "content": "You are Acme's sales assistant. Available tools: [create_deal, update_contact, log_activity, check_inventory]"},
{"role": "user", "content": "New deal from Johnson Corp, $45K, they're in the proposal stage"},
{"role": "assistant", "content": null, "tool_calls": [{"function": {"name": "create_deal", "arguments": "{\"dealname\": \"Johnson Corp\", \"pipeline\": \"default\", \"dealstage\": \"proposalmaker\", \"amount\": 45000}"}}]}
]
}
二、多工具序列(25% 的範例)
需要依序調用 2-3 個工具的工作流程:
「記錄與 Johnson Corp 的通話——我們討論了提案,他們希望 在週五前得到修訂報價,並將交易移至談判階段。」
→ log_activity(通話記錄)→ update_contact(下次跟進:週五)→ create_deal(更新階段為談判)
三、澄清和拒絕(20% 的範例)
當用戶的請求模糊或超出範圍時:
「刪除所有舊的潛在客戶」→「我可以幫助清理潛在客戶,但我需要確認:是否應該封存 90 天內沒有活動的潛在客戶,還是您有不同的標準?」
四、錯誤處理(15% 的範例)
當工具調用失敗且模型需要恢復時:
工具結果:{"error": "deal_stage 'proposal' not found. Valid stages: proposalmaker, decisionmaker, closedwon, closedlost"}
→ 使用更正的階段名稱重試
資料來自哪裡
最佳來源:客戶現有的聊天日誌、支援請求和 CRM 活動歷史。導出 6 個月的資料,過濾您正在自動化的工作流程,並格式化為訓練對。對於沒有歷史記錄的新客戶,根據他們的工具模式和工作流程文件構建合成範例——合成資料生成詳細介紹了這一點。
微調流程
每個客戶的微調需要:
- 資料準備:2-4 小時(主要是格式化和去重複)
- 微調:在單個 GPU 上 20-40 分鐘(LoRA rank 16,3 個訓練周期)
- 評估:1-2 小時(運行測試套件,按工具和工作流程檢查準確性)
- 合計:每個客戶半天
使用 Ertas,工作流程是:上傳格式化的資料集,選擇基礎模型,配置 LoRA 參數,點擊訓練。無需管理 ML 基礎設施。無需調試 CUDA。
定價模式
這種架構支持溢價定價,因為可交付成果是真正定制的:
安裝費:$3,000 - $8,000
涵蓋:
- 探索(映射客戶的工具、工作流程、術語)——4-8 小時
- 資料收集和格式化——4-8 小時
- 微調和評估——4-6 小時
- 整合和測試——4-8 小時
- 代理商總勞動力:16-30 小時,按 $150-250/小時
客戶獲得一個明確了解其工具和工作流程的助理。您向他們展示並排比較:通用 GPT vs 他們微調後的助理,處理 10 個真實請求。差異自己就能說服人。
月保留費:$500 - $2,000
涵蓋:
- 託管和推理(共享基礎設施的實際成本 $50-150)
- 監控和維護(每月 2-4 小時)
- 在新資料上每月重新訓練(每月 1-2 小時)
- 效能報告
利潤計算
| 項目 | 收入 | 成本 | 利潤 |
|---|---|---|---|
| 安裝費(每客戶) | $5,000 | $2,000(勞動力) | $3,000 |
| 月保留費(每客戶) | $1,000 | $300(基礎設施 + 勞動力) | $700 |
| 第一年每客戶 | $17,000 | $5,600 | $11,400(67%) |
相比之下,轉售 GPT-4 API 訪問的利潤是 API 成本的加成——客戶最終會發現並繞過您。
差異化:為何這勝過 GPT 封裝
當您宣稱「我們構建自訂 AI 助理」時,每個代理商都說同樣的話。以下是每客戶 LoRA 如何改變對話:
演示一:工具準確性。 向客戶展示 10 次工具調用。您的助理有 9-10 次正確。GPT 封裝有 7-8 次正確(其中 2-3 次需要參數更正)。
演示二:工作流程知識。 問兩個助理「這筆交易的下一步是什麼?」您的助理知道客戶特定的管道階段。GPT 封裝給出通用答案。
演示三:術語。 在請求中使用客戶的行話。您的助理自然地回應。GPT 封裝要求澄清或誤解。
演示四:成本預測。 向客戶展示:「以您的查詢量,GPT-4 API 每月花費 $X,隨著規模增加而增加。我們的助理在固定基礎設施上運行——$Y/月,無論您發送 1,000 還是 10,000 次查詢。」
儲存和基礎設施
每客戶儲存
- LoRA 適配器(rank 16,Q4):50-100MB
- LoRA 適配器(rank 32,Q4):100-200MB
- 訓練資料存檔:10-50MB
- 評估結果和日誌:5-10MB
每個客戶總計:65-360MB。平均約 200MB。
擴展基礎設施
- 5 個客戶:單一伺服器,16GB RAM,1 個 GPU。所有適配器在記憶體中。雲端每月約 $150 或一次性硬體費用 $3K。
- 20 個客戶:單一伺服器,32GB RAM,1 個 GPU。熱切換適配器。20 × 200MB = 4GB 適配器儲存。雲端每月約 $300。
- 50 個以上客戶:兩台伺服器提供冗余。負載均衡器按客戶路由。雲端每月約 $600。
基礎模型載入一次。適配器切換幾乎是即時的。您不需要 50 個獨立的模型實例——您需要一個模型和 50 個小型適配器檔案。
擴展手冊:從第一個客戶到產品化
階段一:前 3 個客戶(手動)
一切都是量身定制的。您與每個客戶坐下來,手動映射他們的工作流程,手動構建訓練資料,並單獨微調。這是您學習有效方法並構建範本的地方。
收入目標:$15K-24K 安裝費 + 每月 $1.5K-6K 經常性收入。
階段二:第 4-10 個客戶(範本化)
您已看到足夠的模式來創建範本。「CRM 助理」範本涵蓋 HubSpot、Salesforce 和 Pipedrive,帶有預建的工具模式。客戶入職從 30 小時降至 12 小時。您創建一個問卷,能夠捕獲 80% 您需要的資訊。
收入目標:$30K-60K 安裝費 + 每月 $4K-16K 經常性收入。
階段三:10 個以上客戶(產品化)
構建一個自助入口網站。客戶連接他們的 CRM,上傳樣本互動,選擇他們的工作流程類型。系統從範本生成訓練資料,自動微調,並部署適配器。您在上線前審查品質。
安裝費降至 $1K-3K(大部分自動化)。月保留費維持在 $500-1K。規模彌補了每客戶收入的降低。
收入目標:$20K-60K 安裝費 + 每月 $10K-30K 經常性收入。
護城河
到了階段三,您擁有任何 GPT 封裝代理商都沒有的東西:一個特定領域訓練範本庫、一個需要數天而非數週的部署管道,以及競爭對手無法通過申請 API 金鑰來複製的每客戶適配器。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
延伸閱讀
- LoRA Adapters Per Law Firm: One Model, Many Clients — 每客戶適配器架構的垂直行業特定範例
- White-Label AI Platform for Agencies — 如何在您代理商品牌下打包每客戶助理
- AI Agency Differentiation: Beyond the GPT Wrapper — 構建真正 AI 產品的代理商的策略定位
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

OpenClaw for Agencies: Per-Client AI Agents Without the API Bill
AI agencies are adopting OpenClaw for client work, but cloud API costs scale per client. Here's how to deploy per-client agents using fine-tuned local models with LoRA adapters.

White-Label AI: Build Custom Models for Every Client
How AI agencies can use fine-tuned LoRA adapters to deliver white-label AI solutions — one base model, dozens of client-specific adapters, premium pricing.

Multi-Tenant AI Deployment: One Base Model, Dozens of Client Adapters
How AI agencies can serve dozens of clients from a single base model using LoRA adapter hot-swapping — the architecture behind scalable, cost-effective multi-tenant AI.