90% 毛利率 AI 服務：超越 SaaS 經濟效益的代理商模式

傳統顧問公司的毛利率為 70-80%。SaaS 公司的目標是 80-85%。大多數 AI 代理商呢？它們困在 50-60%——原因簡單得令人尷尬：它們在轉售別人的 API 呼叫並稱之為服務。

每個命中 GPT-4o 或 Claude 3.5 Sonnet 的客戶互動都產生可變成本。每個回答的支援工單、每份總結的文件、每個評分的潛在客戶——都會作為 COGS 出現在你的 OpenAI 帳單上。你的部署越成功，它們的成本越高。這與健康的服務業務應有的運作方式完全相反。

還有另一種模式。在自有或租用基礎設施上為每個客戶微調模型的代理商穩定達到 88-92% 毛利率。數學不複雜，但它需要重新思考你實際在賣什麼。

利潤率問題：為什麼 API 轉售扼殺你的經濟效益

讓我們從大多數代理商今天在做什麼開始。你以每月 $1,500 簽下一個客戶來管理他們的 AI 聊天機器人。你把它部署在 GPT-4o 上，因為這是最容易的生產路徑。客戶的聊天機器人每月處理 3,000 次對話，平均每次互動 800 個 token。

你那單一客戶的 API 成本：大約每月 $180-320，取決於有多少重試、上下文視窗擴展和邊界案例通過。這意味著 12-21% 的收入流向一個你無法協商或最佳化的單一項目。

現在把它乘以你的客戶名單。

規模化的 API 利潤率數學

客戶數	平均月營收	平均 API 成本/客戶	API COGS 總計	毛利率
5	$7,500	$280	$1,400	81%
10	$15,000	$280	$2,800	81%
15	$22,500	$280	$4,200	81%
25	$37,500	$280	$7,000	81%

乍看之下，81% 看起來不錯。但 $280/月是平均值——你的高流量客戶每月在 API 成本上燒掉 $400-600。而且這些數字假設使用量沒有增長。當客戶的聊天機器人從每月 3,000 次對話增長到 8,000 次，因為它確實有效，你的 API 帳單線性增長而你的月費保持不變。

計入使用量增長、速率限制變通方案和偶爾有客戶決定通過你的聊天機器人端點運行批次處理後，成熟代理商的真實毛利率往往落在 55-65%。

還有一個結構性問題：你不控制你最大的成本投入。OpenAI 可以隨時提高價格、棄用模型或更改速率限制。你的利潤率是別人的定價決策。

微調模型的轉變

以下是替代架構：不將每個客戶請求路由到雲端 API，而是在你控制的基礎設施上為每個客戶微調 LoRA 適配器。

LoRA 適配器是一個輕量層（通常 50-200MB），它修改基礎模型的行為以適應特定客戶的領域。一個基礎模型——比如 Llama 3.3 8B 或 Qwen 2.5 7B——作為基礎。每個客戶獲得在其資料上訓練的自己的適配器：支援工單、產品文件、銷售對話，無論使用案例需要什麼。

推論在帶有 GPU 的 VPS 或專用硬體上運行。沒有每 token 的收費。無論客戶發送多少請求，你的成本都是固定的。

新的成本結構

成本項目	月成本
Ertas Agency Pro 方案	$14.50/席位
帶 GPU 的 VPS（例如 Hetzner、Lambda）	$50-80/月
基礎設施總計（3 人團隊）	$93.50-123.50

這是服務所有客戶的總成本。五個客戶或二十五個客戶——基礎設施成本大致相同，直到你使 GPU 飽和，屆時你添加第二台 VPS，再多 $50-80/月。

利潤率比較：API vs 微調

客戶數	API 模型營收	API COGS	API 利潤率	微調營收	微調 COGS	微調利潤率
5	$7,500	$1,400	81%	$7,500	$94	98.7%
10	$15,000	$2,800	81%	$15,000	$94	99.4%
15	$22,500	$4,200	81%	$22,500	$94	99.6%
25	$37,500	$7,000	81%	$37,500	$144	99.6%

即使我們保守地在計入偶爾的重新訓練運算、電力和頻寬後稱其為 90% 毛利率——你仍在運行大多數 SaaS 公司羨慕的利潤率。而且與 SaaS 不同，你不需要建立和維護產品。你在部署和管理模型。

為什麼 90% 利潤率在結構上是可持續的

關鍵洞察是微調模型的成本是固定的，而非可變的。添加新客戶不會有意義地增加你的基礎設施支出。LoRA 適配器切換只需毫秒。在 RTX 4090 或 A10G 上運行的單一 7B 參數模型根據上下文長度每秒處理 30-60 個請求——對大多數代理商工作負載綽綽有餘。

這創造了一個飛輪：

固定成本不隨客戶擴展。 你的第 15 個客戶幾乎不花你什麼錢來服務。
模型隨資料改善。 每次重新訓練週期都使客戶的模型更好，增加感知價值，減少流失。
切換成本高。 一個 AI 在其特定資料、術語和流程上訓練的客戶不會切換到運行通用 GPT-4o 的競爭對手。
使用量增長是免費的。 當客戶的聊天機器人流量翻倍時，你的成本保持不變。他們的滿意度提高，因為模型處理它而不退化。

與 API 模型比較，客戶成功直接侵蝕你的利潤率。

保護利潤率的服務層級

90% 利潤率只在你正確定價時有效。以下是對齊激勵的分層結構：

設定費：$2,000-5,000（一次性）

這涵蓋初始資料收集、清理、fine-tuning、評估和部署。它本身應該是有利可圖的——不要補貼設定費來贏得月費。設定費確立了自定義模型的價值並涵蓋你的時間投資。

交付物：清理後的訓練資料集、微調適配器、評估基準、已部署的 API 端點、文件。

月費：$500-2,000/月

這是你利潤率所在。月費涵蓋：

模型監控和品質抽樣（2-4 小時/月）
每月客戶效能報告
次要的提示和系統提示調整
基礎設施維護和運行時間保證
生產問題的優先支援

以 $1,000/月計算，每個客戶 $6/月的邊際基礎設施成本，你在月費上的毛利率為 99.4%。即使分配 4 小時的勞動力，以 $50/小時的內部成本計算，你仍在 79.4%——遠高於 API 模型。

季度模型更新：$500-1,500

每 90 天，在新資料上重新訓練適配器。這是單獨的項目，因為它涉及實際工作：資料收集、清理、fine-tuning、評估。但在 Ertas 上的運算成本可忽略——價值在於你的專業知識，而非 GPU 時間。

季度更新也作為流失預防。每次更新使模型更準確，使客戶更依賴你的服務。在 18 個月累積資料上訓練的模型明顯優於僅在初始資料集上訓練的模型。

再投資利潤率優勢

90% 利潤率的真正力量在於你可以用多餘的部分做什麼。在 60% 利潤率下，你的大部分收入用於涵蓋成本和支付薪資。在 90% 利潤率下，你有 30 個百分點的額外毛利可以部署。

聰明的代理商在三個領域再投資：

客戶獲取。 你可以負擔更多來獲取客戶，因為每個客戶的終身價值更高。如果你的 LTV 是 $24,000（2 年 x $1,000/月），毛利率 90%，你可以在獲取上花費 $3,000-5,000，仍然有出色的單位經濟效益。

人才。 更高的利潤率讓你僱用更好的人並給他們好的薪酬，這改善了服務品質，減少了流失，改善了 LTV。這是 API 依賴型代理商無法獲得的良性循環。

研發。 實驗新的模型架構，建立內部工具，開發專有的評估框架。這些隨時間複利並創造「我們使用 GPT-4o」永遠不會有的防禦性。

轉型路徑

如果你目前經營一個 API 依賴型代理商，以下是遷移順序：

識別你最簡單的客戶工作負載。 選擇一個有簡單分類或問答任務的客戶。
在他們的資料上 fine-tune 一個 LoRA 適配器。 使用 Ertas 從原始資料到已部署模型而無需編寫訓練腳本。
平行運行兩個系統 30 天。 並排比較品質、延遲和成本。
切換並衡量。 追蹤一個計費週期的成本差異。
對下一個客戶重複。 每次遷移都更快，因為你重用相同的基礎模型和基礎設施。

大多數代理商在不到一週內完成第一次遷移。到第五個客戶時，這個過程縮短到一兩天，包括資料清理。

結論

60% 利潤率代理商和 90% 利潤率代理商之間的差異不是營收——而是成本結構。兩者可以收取相同的費率。兩者可以服務相同的客戶。但在固定成本基礎設施上運行微調模型的代理商保留了每賺一元中額外的 $0.30。

在 12 個月內，15 個客戶以平均 $1,500/月的月費計算，這個利潤率差異大約值 $48,600 的額外毛利。那是第二個全職員工，或一個積極的行銷預算，或六個月的資金延長。

建立在微調模型上的代理商沒有做任何奇特的事情。他們在做同樣的工作——為商業客戶部署 AI 解決方案——但有一個根本更好的成本結構。API 依賴型代理商要麼採用這種模式，要麼看著他們的利潤率隨著競爭加劇和客戶變得更對價格敏感而壓縮。

數學很清楚。工具已經存在。唯一的問題是你現在還是以後做出切換。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →