AI 自動化代理機構

使用 Ertas 為客戶建構和部署自訂 AI 自動化工作流程

The Challenge

建構聊天機器人、語音代理和工作流程自動化的 AI 自動化代理機構面臨嚴峻的利潤問題。每一個客戶專案都意味著另一個 OpenAI 或 Anthropic API 金鑰，另一筆按 token 計費的可變支出——隨使用量而非交付價值增長。一家管理 10-20 個以上客戶的代理機構在 GPT-4 或 Claude 上每月輕鬆燒掉 AU$3,000-5,000 的純 API 轉嫁成本，而且這些成本完全不可預測。單一客戶的使用量暴增就能吞噬整個帳戶的利潤。Make.com、n8n、Voiceflow 和 Stammer.ai 等工具讓搭建 AI 驅動的工作流程變得容易，但它們都將推論導向同樣的商業 API，使代理機構對最大的可變成本毫無控制力。

除了成本之外，差異化問題更加攸關存亡。當每家代理機構都在略有不同的提示模板背後轉售相同的 GPT-4 或 Claude API 時，根本沒有護城河。客戶最終會意識到他們可以繞過中間人直接呼叫 API。與此同時，客戶資料——客戶對話、專有商業脈絡、敏感營運細節——隨著每次 API 呼叫流經第三方基礎設施。企業客戶越來越多地對此提出質疑，要求了解其資料在哪裡被處理和儲存。無法回答「您的資料絕不離開我們的基礎設施」的代理機構正在將訂單輸給能做到這一點的競爭對手。

The Solution

Ertas 將代理機構模式從 API 轉售商轉變為自訂 AI 供應商。代理機構不再為每個客戶維護獨立的 API 訂閱，而是部署一個高效能的基礎模型（7B-14B 參數），並為每個客戶附加根據其特定資料微調的 LoRA 適配器——包括其語調風格、產品目錄、FAQ 語料庫和對話歷史。結果是為每個客戶提供量身定制的 AI 體驗，運行在代理機構控制的基礎設施上，推論成本固定且可預測。一台 Mac Studio 或一台適中的 GPU 伺服器就能透過 Ollama 同時為數十個客戶提供服務，以一次性硬體投資取代每月數千美元的 API 支出。

白標交付模式變得極其簡單。每個客戶在推論時載入自己的適配器，Vault 確保租戶之間嚴格的資料隔離。客戶資料永遠不會離開代理機構的基礎設施——如果客戶要求本地部署，資料也不會離開客戶自己的基礎設施。微調模型在特定領域任務上優於通用基礎模型，因為它們是在真正重要的實際資料上訓練的，而非透過提示來近似。代理機構可以在 Studio 中迭代適配器而不影響客戶端系統，A/B 測試新的適配器版本，並在品質下降時立即回滾。可變 API 成本項目從損益表中完全消失，取而代之的是固定的基礎設施預算，每新增一個客戶都能提升利潤率。

Key Features

Studio

逐客戶微調

Studio 讓代理機構從共享基礎模型為每個客戶創建和管理 LoRA 適配器。上傳客戶的對話記錄、產品資料或知識庫，設定微調運行，生成一個捕捉該客戶特定領域和語調的適配器——全程無需編寫訓練腳本或直接管理 GPU 基礎設施。

Hub

基礎模型選擇

Hub 提供數百個針對不同任務最佳化的開放權重模型——對話型、指令型、多語言、程式碼生成。代理機構可以根據客戶需求對基礎模型進行基準測試，比較參數大小和量化級別，為每個服務層級選擇合適的基礎。

Cloud

多租戶部署

Cloud 使代理機構能夠部署單一基礎模型，並在推論時動態載入逐客戶的適配器，處理路由和適配器切換。從 5 個客戶擴展到 50 個客戶，無需等比例增長基礎設施——每個新客戶只是另一個輕量級 LoRA 適配器，而非另一個模型實例。

Vault

客戶資料隔離

Vault 在每個客戶的訓練資料、適配器權重和推論日誌之間強制執行嚴格的租戶邊界。每個客戶的資料在靜態和傳輸中都經過加密，透過 API 金鑰進行存取控制，對其他租戶完全不可見——滿足企業客戶在簽約前要求的資料主權需求。

Example Workflow

墨爾本一家 AI 自動化代理機構管理著 15 個中小型企業客戶的聊天機器人和語音代理部署，涵蓋房地產、牙科和貿易行業。他們目前的設置透過 Make.com 和 Voiceflow 整合將所有推論路由至 GPT-4，每月 API 費用為 AU$4,200——僅三個客戶就因高對話量佔了 AU$1,800。該代理機構決定遷移到 Ertas。他們從最高支出的客戶開始，這是一家房地產代理機構，其聊天機器人每月處理 12,000 次關於房產列表、看房預約和資格預審問題的對話。代理機構從現有系統匯出 6 個月的對話記錄（45,000 對訊息），並將其作為 JSONL 訓練集上傳至 Vault。在 Studio 中，他們從 Hub 選擇 Qwen 2.5 7B 基礎模型，設定 rank 16、3 個 epoch 的 LoRA 微調運行，並在 Cloud 上啟動訓練。最終適配器在留出測試集上的回應準確率達到 92%——相比他們精心提示工程的 GPT-4 設置的 78%。他們將適配器匯出為 GGUF 並在辦公室的 Mac Mini M4 Pro（AU$2,800 一次性成本）上與 Ollama 一起部署。將所有 15 個客戶遷移到同一基礎模型上的個別 LoRA 適配器後，他們每月的 AI 推論成本降至 AU$14.50 的 Ertas 訂閱加上電費和網路費——降幅達 99.6%。硬體在 3 週內回本。