AI 自動化代理機構

    使用 Ertas 為客戶建構和部署自訂 AI 自動化工作流程

    The Challenge

    建構聊天機器人、語音代理和工作流程自動化的 AI 自動化代理機構面臨嚴峻的利潤問題。每一個客戶專案都意味著另一個 OpenAI 或 Anthropic API 金鑰,另一筆按 token 計費的可變支出——隨使用量而非交付價值增長。一家管理 10-20 個以上客戶的代理機構在 GPT-4 或 Claude 上每月輕鬆燒掉 AU$3,000-5,000 的純 API 轉嫁成本,而且這些成本完全不可預測。單一客戶的使用量暴增就能吞噬整個帳戶的利潤。Make.com、n8n、Voiceflow 和 Stammer.ai 等工具讓搭建 AI 驅動的工作流程變得容易,但它們都將推論導向同樣的商業 API,使代理機構對最大的可變成本毫無控制力。

    除了成本之外,差異化問題更加攸關存亡。當每家代理機構都在略有不同的提示模板背後轉售相同的 GPT-4 或 Claude API 時,根本沒有護城河。客戶最終會意識到他們可以繞過中間人直接呼叫 API。與此同時,客戶資料——客戶對話、專有商業脈絡、敏感營運細節——隨著每次 API 呼叫流經第三方基礎設施。企業客戶越來越多地對此提出質疑,要求了解其資料在哪裡被處理和儲存。無法回答「您的資料絕不離開我們的基礎設施」的代理機構正在將訂單輸給能做到這一點的競爭對手。

    The Solution

    Ertas 將代理機構模式從 API 轉售商轉變為自訂 AI 供應商。代理機構不再為每個客戶維護獨立的 API 訂閱,而是部署一個高效能的基礎模型(7B-14B 參數),並為每個客戶附加根據其特定資料微調的 LoRA 適配器——包括其語調風格、產品目錄、FAQ 語料庫和對話歷史。結果是為每個客戶提供量身定制的 AI 體驗,運行在代理機構控制的基礎設施上,推論成本固定且可預測。一台 Mac Studio 或一台適中的 GPU 伺服器就能透過 Ollama 同時為數十個客戶提供服務,以一次性硬體投資取代每月數千美元的 API 支出。

    白標交付模式變得極其簡單。每個客戶在推論時載入自己的適配器,Vault 確保租戶之間嚴格的資料隔離。客戶資料永遠不會離開代理機構的基礎設施——如果客戶要求本地部署,資料也不會離開客戶自己的基礎設施。微調模型在特定領域任務上優於通用基礎模型,因為它們是在真正重要的實際資料上訓練的,而非透過提示來近似。代理機構可以在 Studio 中迭代適配器而不影響客戶端系統,A/B 測試新的適配器版本,並在品質下降時立即回滾。可變 API 成本項目從損益表中完全消失,取而代之的是固定的基礎設施預算,每新增一個客戶都能提升利潤率。

    Key Features

    Studio

    逐客戶微調

    Studio 讓代理機構從共享基礎模型為每個客戶創建和管理 LoRA 適配器。上傳客戶的對話記錄、產品資料或知識庫,設定微調運行,生成一個捕捉該客戶特定領域和語調的適配器——全程無需編寫訓練腳本或直接管理 GPU 基礎設施。

    Hub

    基礎模型選擇

    Hub 提供數百個針對不同任務最佳化的開放權重模型——對話型、指令型、多語言、程式碼生成。代理機構可以根據客戶需求對基礎模型進行基準測試,比較參數大小和量化級別,為每個服務層級選擇合適的基礎。

    Cloud

    多租戶部署

    Cloud 使代理機構能夠部署單一基礎模型,並在推論時動態載入逐客戶的適配器,處理路由和適配器切換。從 5 個客戶擴展到 50 個客戶,無需等比例增長基礎設施——每個新客戶只是另一個輕量級 LoRA 適配器,而非另一個模型實例。

    Vault

    客戶資料隔離

    Vault 在每個客戶的訓練資料、適配器權重和推論日誌之間強制執行嚴格的租戶邊界。每個客戶的資料在靜態和傳輸中都經過加密,透過 API 金鑰進行存取控制,對其他租戶完全不可見——滿足企業客戶在簽約前要求的資料主權需求。

    Example Workflow

    墨爾本一家 AI 自動化代理機構管理著 15 個中小型企業客戶的聊天機器人和語音代理部署,涵蓋房地產、牙科和貿易行業。他們目前的設置透過 Make.com 和 Voiceflow 整合將所有推論路由至 GPT-4,每月 API 費用為 AU$4,200——僅三個客戶就因高對話量佔了 AU$1,800。該代理機構決定遷移到 Ertas。他們從最高支出的客戶開始,這是一家房地產代理機構,其聊天機器人每月處理 12,000 次關於房產列表、看房預約和資格預審問題的對話。代理機構從現有系統匯出 6 個月的對話記錄(45,000 對訊息),並將其作為 JSONL 訓練集上傳至 Vault。在 Studio 中,他們從 Hub 選擇 Qwen 2.5 7B 基礎模型,設定 rank 16、3 個 epoch 的 LoRA 微調運行,並在 Cloud 上啟動訓練。最終適配器在留出測試集上的回應準確率達到 92%——相比他們精心提示工程的 GPT-4 設置的 78%。他們將適配器匯出為 GGUF 並在辦公室的 Mac Mini M4 Pro(AU$2,800 一次性成本)上與 Ollama 一起部署。將所有 15 個客戶遷移到同一基礎模型上的個別 LoRA 適配器後,他們每月的 AI 推論成本降至 AU$14.50 的 Ertas 訂閱加上電費和網路費——降幅達 99.6%。硬體在 3 週內回本。

    Compliance & Security

    本地部署意味著客戶資料永遠不會離開代理機構的基礎設施或客戶自己的場所。這滿足了《澳洲隱私法》和 GDPR 下企業和政府客戶的資料主權要求。代理機構可以提供書面保證,確保沒有任何客戶資料被傳輸到第三方 AI 供應商——這一要求越來越多地出現在企業採購 RFP 中。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.