
AI代理商利潤計算器:API成本與微調模型的經濟學
停止猜測您的利潤。這個計算器精確分析您在每個客戶的API呼叫與微調模型上的花費,並顯示微調何時能回收成本的臨界點。
大多數AI代理商老闆能在500美元以內說出他們的月收入。問他們每個客戶的AI基礎設施成本,你會得到停頓、猜測,以及聽起來像是臨時編造的數字。
這不是性格缺陷。API帳單儀表板的設計是顯示您的總體支出,而非每客戶盈利能力。當您將15個客戶通過同一個OpenAI帳戶路由時,找出哪個客戶每月消耗400美元、哪個消耗80美元需要沒有人做的手動工作。
結果:您在盲目定價。您不知道哪些客戶是盈利的,哪些是虧損的,以 及API和微調經濟學之間的臨界點在哪裡。
本文是一個計算器。我們將逐步介紹兩種模型的數學計算——基於API和微調——讓您可以對自己的客戶群運算數字並做出明智的決策。
第一節:API成本計算
每個客戶每月API成本的核心公式:
每月API成本 = (每次互動平均令牌數)×(每日互動次數)×(30天)×(每令牌價格)
讓我們用實際數字分解每個變量。
每次互動平均令牌數
這因使用案例而異,但以下是生產部署的基準:
| 使用案例 | 平均輸入令牌 | 平均輸出令牌 | 每次互動總計 |
|---|---|---|---|
| 客戶支援聊天機器人 | 350 | 250 | 600 |
| 文件問答 / RAG | 800 | 400 | 1,200 |
| 線索資格確認 | 200 | 150 | 350 |
| 內容生成 | 300 | 800 | 1,100 |
| 數據提取 / 分類 | 500 | 100 | 600 |
這些是平均值。您的實際數字取決於對話長度、上下文視窗使用情況,以及提示中有多少是系統指令相對於用戶輸入。
每日互動次數
再次因客戶規模和使用案例而異:
| 客戶類型 | 每日互動次數 |
|---|---|
| 小型企業(1-10名員工) | 20-50 |
| 中型市場(50-500名員工) | 100-300 |
| 企業(500名以上員工) | 500-2,000 |
對於服務中小型客戶的典型AI代理商,每個客戶每天50-150次互動是合理的規劃數字。
每令牌價格(2026年3月)
| 模型 | 輸入(每100萬令牌) | 輸出(每100萬令牌) |
|---|---|---|
| GPT-4o | $2.50 | $10.00 |
| GPT-4o-mini | $0.15 | $0.60 |
| Claude 3.5 Sonnet | $3.00 | $15.00 |
| Claude 3.5 Haiku | $0.25 | $1.25 |
實際示例:客戶支援聊天機器人
客戶:中型市場公司,每日100次互動,使用GPT-4o。
- 輸入令牌:350令牌 × 100次互動 × 30天 = 1,050,000令牌/月
- 輸出令牌:250令牌 × 100次互動 × 30天 = 750,000令牌/月
- 輸入成本:1.05M × $2.50/1M = $2.63
- 輸出成本:0.75M × $10.00/1M = $7.50
- 每月基礎成本:$10.13
等等——這看起來很低。確實如此,如果您只計算原始令牌的話。這裡是乘數的作用。
隱藏乘數
重試率: 3-8%的API呼叫因速率限制、超時或格式錯誤的回應而失敗,需要重試。在基礎成本上增加5%。
上下文視窗增長: 對話在會話中變得更長。第一條消息可能總共600令牌,但在同一對話的第8條消息時,您發送的上下文超過4,000令牌。對於多輪聊天機器人,將您的平均值乘以2.5-3倍。
系統提示開銷: 每個請求都包括系統提示,通常為500-2,000令牌。這在所有互動中是恆定的,通常被排除在簡單成本計算之外。
重度用戶: 10-15%的用戶產生50%以上的令牌量。您的「每天100次互動」平均值掩蓋了這樣一個事實:一些用戶進行20條消息的對話,而其他人只問一個問題。
嵌入成本: 如果您在運行RAG,您還需要支付嵌入生成費用。以每100萬令牌$0.02-0.13的價格,這增加了總成本的5-15%。
讓我們用乘數重新計算:
- 系統提示:1,000令牌 × 100次互動 × 30天 = 3,000,000個額外輸入令牌
- 多輪上下文:基礎令牌 × 2.5 = 2,625,000輸入 + 1,875,000輸出
- 重試率:× 1.05
- 重度用戶調整:× 1.15
修訂輸入:(1,050,000 + 3,000,000) × 2.5 × 1.05 × 1.15 = 12,251,063令牌 修訂輸出:750,000 × 2.5 × 1.05 × 1.15 = 2,268,281令牌
- 輸入成本:12.25M × $2.50/1M = $30.63
- 輸出成本:2.27M × $10.00/1M = $22.68
- 每客戶每月實際成本:$53.31(GPT-4o)
對於使用Claude 3.5 Sonnet的客戶,每100萬令牌$3.00/$15.00:
- 輸入成本:12.25M × $3.00/1M = $36.75
- 輸出成本:2.27M × $15.00/1M = $34.02
- 每客戶每月實際成本:$70.77
現在乘以您的客戶群。15個客戶,每月平均$60 = 每月$900的API成本。這是保守的情況。大量客戶或更重的工作負載可以將單個客戶成本推高至$200-500/月,使總成本達到$2,000-4,000/月。
但關鍵在於:這些成本隨著您的客戶增長而增長。成功的部署驅動更多使用,從 而驅動更多成本。您做得越好,它花費您的越多。
第二節:微調成本計算
微調模型的成本結構從根本上不同:它是固定的,而非可變的。
每月固定成本
| 成本項目 | 每月費用 | 備注 |
|---|---|---|
| Ertas計劃(每席位) | $14.50 | 微調、評估、適配器管理 |
| 帶GPU的VPS | $50-120 | Hetzner、Lambda、RunPod等 |
| 域名/SSL | $1-2 | 每客戶API端點 |
| 監控 | $0-10 | 正常運行時間監控、基本APM |
對於3人代理商:$43.50(Ertas)+ $80(VPS)+ $10(雜項)= 每月總計$133.50。
每客戶一次性成本
| 成本項目 | 一次性費用 | 備注 |
|---|---|---|
| 數據清理 | 5-10小時人工 | 如果自己做則不是現金成本 |
| 微調計算 | 包含在Ertas計劃中 | 無額外費用 |
| 部署/整合 | 2-4小時人工 | API端點、客戶整合 |
一次性成本是人工,而非基礎設施。您應該通過設置費用(每客戶$3,000-10,000)來回收這些費用。
每客戶邊際成本
一旦您的基礎設施運行,添加新客戶的成本為:
- LoRA適配器存儲:約150MB(可忽略不計)
- 推論計算:在所有客戶間共享(在GPU飽和之前沒有邊際成本)
- 域名設置:$1-2/月
- 每客戶總邊際成本:約$2-5/月
這個數字改變了經濟學。每個額外客戶的基礎設施成本為$2-5/月。相比之下,API成本為$60-500/月。
第三節:臨界點分析
在哪個客戶數量下,微調超越API成本?讓我們建模。
假設
- 每客戶平均API成本:$180/月(中間範圍,計入乘數)
- 微調基礎設施:$133.50/月基礎 + 每客戶$5/月
- 客戶收入:平均每月$1,500固定費用
規模化的數學
| 客戶數 | API總COGS | API毛利率 | 微調總COGS | 微調毛利率 |
|---|---|---|---|---|
| 1 | $180 | 88.0% | $138.50 | 90.8% |
| 3 | $540 | 88.0% | $148.50 | 96.7% |
| 5 | $900 | 88.0% | $158.50 | 97.9% |
| 8 | $1,440 | 88.0% | $173.50 | 98.6% |
| 15 | $2,700 | 88.0% | $208.50 | 99.1% |
| 25 | $4,500 | 88.0% | $258.50 | 99.3% |
臨界點在1個客戶。在這個模型中,微調在每個規模都比API便宜,因為基礎設施($133.50)低於即使是單個客戶的API成本($180)。
但這假設每月平均$180。如果您的API成本更低,因為您使用GPT-4o-mini 或Claude Haiku呢?
低成本API情景
如果您的每客戶平均API成本為$40/月(較便宜模型上的輕量工作負載):
| 客戶數 | API總COGS | 微調總COGS | 哪個勝出? |
|---|---|---|---|
| 1 | $40 | $138.50 | API勝出 |
| 3 | $120 | $148.50 | API勝出 |
| 4 | $160 | $153.50 | 微調勝出 |
| 5 | $200 | $158.50 | 微調勝出 |
| 10 | $400 | $183.50 | 微調勝出 |
在低成本情景中,臨界點在4個客戶。在較便宜模型上運行輕量工作負載的4個客戶以下,API成本實際上低於維護微調基礎設施。
高成本API情景
如果您的每客戶平均API成本為$350/月(前沿模型上的重量工作負載):
| 客戶數 | API總COGS | 微調總COGS | 哪個勝出? |
|---|---|---|---|
| 1 | $350 | $138.50 | 微調勝出 |
| 5 | $1,750 | $158.50 | 微調勝出 |
| 15 | $5,250 | $208.50 | 微調勝出 |
在高成本情景中,微調從第一個客戶就勝出。節省是可觀的:15個客戶每月節省$5,041.50。
結論
對於大多數代理商,微調在超過3-5個客戶後超越API成本。確切的臨界點取決於:
- 您目前使用的API模型
- 每個客戶的平均互動量
- 工作負載的複雜性(簡單問答 vs. 多輪對話 vs. 文件處理)
如果您在GPT-4o、Claude 3.5 Sonnet或類似前沿模型上運行任何客戶,臨界點幾乎肯定在1-2個客戶。
第四節:兩者的隱藏成本
上面的計算器涵蓋直接基礎設施成本。但兩側都有影響現實世界經濟學的隱藏成本。
隱藏的API成本
速率限制。 當您達到速率限制時,您要麼排隊請求(降低用戶體驗),要麼支付更高層級費用。OpenAI的第5層速率限制為每分鐘10,000個請求——對大多數代理商來說足夠,但在流量高峰期間達到第3/4層限制意味著請求丟棄或昂貴的升級。
模型棄用。 OpenAI在2025年6月棄用了GPT-4-0613。如果您的客戶提示詞針對該模型進行了優化,遷移需要在每個客戶上進行測試和調整。這是未得到補償的工作,不出現在成本計算中。
停機。 雲端API中斷不是您的錯,但這是您的問題。2小時的OpenAI中斷意味著您客戶的聊天機器人2小時返回錯誤。您承擔解釋發生了什麼的支援成本。
供應商依賴。 您的整個業務運行在您無法控制的平台上。價格變化、政策變化、使用限制——這些中的任何一個都可以在一夜之間從根本上改變您的經濟狀況。這不是您可以放入試算表的成本,但它是真實的 。
隱藏的微調成本
再訓練節奏。 隨著客戶數據變化,模型需要定期再訓練。預算每季度每個客戶30-60分鐘的計算時間,加上2-4小時的數據準備工作。這是必須包含在您的固定費用定價中的持續工作。
硬體維護。 如果您在運行自己的GPU伺服器,請預算偶爾的故障、操作系統更新和驅動程序更新。如果您使用雲端GPU(Hetzner、Lambda),提供商處理硬體,但您仍然管理軟體堆疊。
推論監控。 您需要知道您的推論伺服器何時緩慢、過載或返回錯誤。基本監控(Uptime Robot + 簡單健康檢查)是免費的。更複雜的監控(延遲百分位數、每客戶儀表板)需要一些設置。
品質保證。 微調模型可能會出現與API模型不同的故障模式。定期品質採樣(每月每個客戶50-100個生產查詢)在客戶注意到問題之前發現問題。這是人工成本,而非基礎設施成本,但它是真實的。
運算您自己的數字
以下是計算您特定臨界點的框架:
第1步: 登入您的API提供商儀表板。導出您最近3個月的使用數據。計算您的平均月支出。
第2步: 如果可能,按客戶標記使用情況。如果無法直接標記,根據客戶量比率進行估算。即使是粗略的分類(客戶A使用約40%的總量,客戶B使用約25%等)也比單一總計數字更好。
第3步: 將總月API支出除以活躍客戶數。這是您的每客戶平均API成本。
第4步: 計算您的微調基礎成本:Ertas計劃($14.50/席位 × 團隊規模)+ VPS($50-120/月,依GPU等級而定)。
第5步: 計算臨界點:微調基礎成本 ÷ 每客戶平均API成本 = 微調達到收支平衡的客戶數量。
第6步: 在微調方面增加20%緩衝,用於再訓練計算、監控和維護。重新計算。
如果您的臨界點等於或低於您當前的客戶數量,經濟學傾向於微調。如果它遠高於您當前的客戶數量,請繼續使用API,直到您增長到臨界點區域。
決策框架
API成本線性擴展。微調成本主要是固定的。這意味著答案幾乎總是相同的:隨著規模擴大,微調勝出。
例外情況:
- 您在輕量模型上有1-2個客戶。 如果您在低量上為2個客戶運行GPT-4o-mini,API成本總計$30-60/月。不要添加$133/月的基礎設施來節省$30。
- 您需要前沿推理。 一些任務確實需要GPT-4o或Claude 3.5 Sonnet級別的推理。微調的70億模型無法在複雜的多步驟推理任務上匹配它們。對於這些工作負載,API成本是獲取前沿智能的代價。
- 您的客戶需要最新模型。 如果您的價值主張是「我們讓您使用最新的AI」,並且客戶期望每季度升級模型,微調會造成可能不值得的再訓練負擔。
對於其他所有人——這是大多數為商業客戶運行生產工作負載的AI代理商——數學在超過3-5個客戶後傾向微調。利潤改善為10-15個百分點,每月轉化為數千美元的額外毛利潤。
對您自己的帳目運算數字。計算器不會說謊。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
延伸閱讀
- 如何用微調本地模型將您的AI代理商成本削減90% -- 從API遷移到本地推論的操作手冊。
- 如何作為代理商為AI服務定價 -- 考慮您的成本結構並最大化利潤的定價策略。
- 自托管AI模型:代理商定價和成本分析 -- 運行自己的推論基礎設施的代理商的詳細成本分析。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

90% Gross Margin AI Services: The Agency Model That Beats SaaS Economics
Most AI agencies run 50-60% gross margins because they're reselling API calls. Agencies using fine-tuned models on owned infrastructure hit 90%+ margins. Here's how the economics work.

Client-Specific AI Agents as Recurring Revenue: The Agency Pricing Playbook
The most profitable AI agencies don't sell projects — they sell per-client AI agents on monthly retainers. Here's the pricing playbook that turns one-time builds into $2K-10K/month recurring revenue.

White-Label AI Agents: How Agencies Ship Custom Models Under Client Brands
Your clients want AI that feels like theirs, not yours. White-label AI agents — custom fine-tuned models deployed under client branding — let agencies deliver differentiated products at scale.