AI代理商利潤計算器：API成本與微調模型的經濟學

大多數AI代理商老闆能在500美元以內說出他們的月收入。問他們每個客戶的AI基礎設施成本，你會得到停頓、猜測，以及聽起來像是臨時編造的數字。

這不是性格缺陷。API帳單儀表板的設計是顯示您的總體支出，而非每客戶盈利能力。當您將15個客戶通過同一個OpenAI帳戶路由時，找出哪個客戶每月消耗400美元、哪個消耗80美元需要沒有人做的手動工作。

結果：您在盲目定價。您不知道哪些客戶是盈利的，哪些是虧損的，以及API和微調經濟學之間的臨界點在哪裡。

本文是一個計算器。我們將逐步介紹兩種模型的數學計算——基於API和微調——讓您可以對自己的客戶群運算數字並做出明智的決策。

第一節：API成本計算

每個客戶每月API成本的核心公式：

每月API成本 = （每次互動平均令牌數）×（每日互動次數）×（30天）×（每令牌價格）

讓我們用實際數字分解每個變量。

每次互動平均令牌數

這因使用案例而異，但以下是生產部署的基準：

使用案例	平均輸入令牌	平均輸出令牌	每次互動總計
客戶支援聊天機器人	350	250	600
文件問答 / RAG	800	400	1,200
線索資格確認	200	150	350
內容生成	300	800	1,100
數據提取 / 分類	500	100	600

這些是平均值。您的實際數字取決於對話長度、上下文視窗使用情況，以及提示中有多少是系統指令相對於用戶輸入。

每日互動次數

再次因客戶規模和使用案例而異：

客戶類型	每日互動次數
小型企業（1-10名員工）	20-50
中型市場（50-500名員工）	100-300
企業（500名以上員工）	500-2,000

對於服務中小型客戶的典型AI代理商，每個客戶每天50-150次互動是合理的規劃數字。

每令牌價格（2026年3月）

模型	輸入（每100萬令牌）	輸出（每100萬令牌）
GPT-4o	$2.50	$10.00
GPT-4o-mini	$0.15	$0.60
Claude 3.5 Sonnet	$3.00	$15.00
Claude 3.5 Haiku	$0.25	$1.25

實際示例：客戶支援聊天機器人

客戶：中型市場公司，每日100次互動，使用GPT-4o。

輸入令牌：350令牌 × 100次互動 × 30天 = 1,050,000令牌/月
輸出令牌：250令牌 × 100次互動 × 30天 = 750,000令牌/月
輸入成本：1.05M × $2.50/1M = $2.63
輸出成本：0.75M × $10.00/1M = $7.50
每月基礎成本：$10.13

等等——這看起來很低。確實如此，如果您只計算原始令牌的話。這裡是乘數的作用。

隱藏乘數

重試率： 3-8%的API呼叫因速率限制、超時或格式錯誤的回應而失敗，需要重試。在基礎成本上增加5%。

上下文視窗增長： 對話在會話中變得更長。第一條消息可能總共600令牌，但在同一對話的第8條消息時，您發送的上下文超過4,000令牌。對於多輪聊天機器人，將您的平均值乘以2.5-3倍。

系統提示開銷： 每個請求都包括系統提示，通常為500-2,000令牌。這在所有互動中是恆定的，通常被排除在簡單成本計算之外。

重度用戶： 10-15%的用戶產生50%以上的令牌量。您的「每天100次互動」平均值掩蓋了這樣一個事實：一些用戶進行20條消息的對話，而其他人只問一個問題。

嵌入成本： 如果您在運行RAG，您還需要支付嵌入生成費用。以每100萬令牌$0.02-0.13的價格，這增加了總成本的5-15%。

讓我們用乘數重新計算：

系統提示：1,000令牌 × 100次互動 × 30天 = 3,000,000個額外輸入令牌
多輪上下文：基礎令牌 × 2.5 = 2,625,000輸入 + 1,875,000輸出
重試率：× 1.05
重度用戶調整：× 1.15

修訂輸入：(1,050,000 + 3,000,000) × 2.5 × 1.05 × 1.15 = 12,251,063令牌修訂輸出：750,000 × 2.5 × 1.05 × 1.15 = 2,268,281令牌

輸入成本：12.25M × $2.50/1M = $30.63
輸出成本：2.27M × $10.00/1M = $22.68
每客戶每月實際成本：$53.31（GPT-4o）

對於使用Claude 3.5 Sonnet的客戶，每100萬令牌$3.00/$15.00：

輸入成本：12.25M × $3.00/1M = $36.75
輸出成本：2.27M × $15.00/1M = $34.02
每客戶每月實際成本：$70.77

現在乘以您的客戶群。15個客戶，每月平均$60 = 每月$900的API成本。這是保守的情況。大量客戶或更重的工作負載可以將單個客戶成本推高至$200-500/月，使總成本達到$2,000-4,000/月。

但關鍵在於：這些成本隨著您的客戶增長而增長。成功的部署驅動更多使用，從而驅動更多成本。您做得越好，它花費您的越多。

第二節：微調成本計算

微調模型的成本結構從根本上不同：它是固定的，而非可變的。

每月固定成本

成本項目	每月費用	備注
Ertas計劃（每席位）	$14.50	微調、評估、適配器管理
帶GPU的VPS	$50-120	Hetzner、Lambda、RunPod等
域名/SSL	$1-2	每客戶API端點
監控	$0-10	正常運行時間監控、基本APM

對於3人代理商：$43.50（Ertas）+ $80（VPS）+ $10（雜項）= 每月總計$133.50。

每客戶一次性成本

成本項目	一次性費用	備注
數據清理	5-10小時人工	如果自己做則不是現金成本
微調計算	包含在Ertas計劃中	無額外費用
部署/整合	2-4小時人工	API端點、客戶整合

一次性成本是人工，而非基礎設施。您應該通過設置費用（每客戶$3,000-10,000）來回收這些費用。

每客戶邊際成本

一旦您的基礎設施運行，添加新客戶的成本為：

LoRA適配器存儲：約150MB（可忽略不計）
推論計算：在所有客戶間共享（在GPU飽和之前沒有邊際成本）
域名設置：$1-2/月
每客戶總邊際成本：約$2-5/月

這個數字改變了經濟學。每個額外客戶的基礎設施成本為$2-5/月。相比之下，API成本為$60-500/月。

第三節：臨界點分析

在哪個客戶數量下，微調超越API成本？讓我們建模。

假設

每客戶平均API成本：$180/月（中間範圍，計入乘數）
微調基礎設施：$133.50/月基礎 + 每客戶$5/月
客戶收入：平均每月$1,500固定費用

規模化的數學

客戶數	API總COGS	API毛利率	微調總COGS	微調毛利率
1	$180	88.0%	$138.50	90.8%
3	$540	88.0%	$148.50	96.7%
5	$900	88.0%	$158.50	97.9%
8	$1,440	88.0%	$173.50	98.6%
15	$2,700	88.0%	$208.50	99.1%
25	$4,500	88.0%	$258.50	99.3%

臨界點在1個客戶。在這個模型中，微調在每個規模都比API便宜，因為基礎設施（$133.50）低於即使是單個客戶的API成本（$180）。

但這假設每月平均$180。如果您的API成本更低，因為您使用GPT-4o-mini或Claude Haiku呢？

低成本API情景

如果您的每客戶平均API成本為$40/月（較便宜模型上的輕量工作負載）：

客戶數	API總COGS	微調總COGS	哪個勝出？
1	$40	$138.50	API勝出
3	$120	$148.50	API勝出
4	$160	$153.50	微調勝出
5	$200	$158.50	微調勝出
10	$400	$183.50	微調勝出

在低成本情景中，臨界點在4個客戶。在較便宜模型上運行輕量工作負載的4個客戶以下，API成本實際上低於維護微調基礎設施。

高成本API情景

如果您的每客戶平均API成本為$350/月（前沿模型上的重量工作負載）：

客戶數	API總COGS	微調總COGS	哪個勝出？
1	$350	$138.50	微調勝出
5	$1,750	$158.50	微調勝出
15	$5,250	$208.50	微調勝出

在高成本情景中，微調從第一個客戶就勝出。節省是可觀的：15個客戶每月節省$5,041.50。

結論

對於大多數代理商，微調在超過3-5個客戶後超越API成本。確切的臨界點取決於：

您目前使用的API模型
每個客戶的平均互動量
工作負載的複雜性（簡單問答 vs. 多輪對話 vs. 文件處理）

如果您在GPT-4o、Claude 3.5 Sonnet或類似前沿模型上運行任何客戶，臨界點幾乎肯定在1-2個客戶。

第四節：兩者的隱藏成本

上面的計算器涵蓋直接基礎設施成本。但兩側都有影響現實世界經濟學的隱藏成本。

隱藏的API成本

速率限制。 當您達到速率限制時，您要麼排隊請求（降低用戶體驗），要麼支付更高層級費用。OpenAI的第5層速率限制為每分鐘10,000個請求——對大多數代理商來說足夠，但在流量高峰期間達到第3/4層限制意味著請求丟棄或昂貴的升級。

模型棄用。 OpenAI在2025年6月棄用了GPT-4-0613。如果您的客戶提示詞針對該模型進行了優化，遷移需要在每個客戶上進行測試和調整。這是未得到補償的工作，不出現在成本計算中。

停機。 雲端API中斷不是您的錯，但這是您的問題。2小時的OpenAI中斷意味著您客戶的聊天機器人2小時返回錯誤。您承擔解釋發生了什麼的支援成本。

供應商依賴。 您的整個業務運行在您無法控制的平台上。價格變化、政策變化、使用限制——這些中的任何一個都可以在一夜之間從根本上改變您的經濟狀況。這不是您可以放入試算表的成本，但它是真實的。

隱藏的微調成本

再訓練節奏。 隨著客戶數據變化，模型需要定期再訓練。預算每季度每個客戶30-60分鐘的計算時間，加上2-4小時的數據準備工作。這是必須包含在您的固定費用定價中的持續工作。

硬體維護。 如果您在運行自己的GPU伺服器，請預算偶爾的故障、操作系統更新和驅動程序更新。如果您使用雲端GPU（Hetzner、Lambda），提供商處理硬體，但您仍然管理軟體堆疊。

推論監控。 您需要知道您的推論伺服器何時緩慢、過載或返回錯誤。基本監控（Uptime Robot + 簡單健康檢查）是免費的。更複雜的監控（延遲百分位數、每客戶儀表板）需要一些設置。

品質保證。 微調模型可能會出現與API模型不同的故障模式。定期品質採樣（每月每個客戶50-100個生產查詢）在客戶注意到問題之前發現問題。這是人工成本，而非基礎設施成本，但它是真實的。

運算您自己的數字

以下是計算您特定臨界點的框架：

第1步： 登入您的API提供商儀表板。導出您最近3個月的使用數據。計算您的平均月支出。

第2步： 如果可能，按客戶標記使用情況。如果無法直接標記，根據客戶量比率進行估算。即使是粗略的分類（客戶A使用約40%的總量，客戶B使用約25%等）也比單一總計數字更好。

第3步： 將總月API支出除以活躍客戶數。這是您的每客戶平均API成本。

第4步： 計算您的微調基礎成本：Ertas計劃（$14.50/席位 × 團隊規模）+ VPS（$50-120/月，依GPU等級而定）。

第5步： 計算臨界點：微調基礎成本 ÷ 每客戶平均API成本 = 微調達到收支平衡的客戶數量。

第6步： 在微調方面增加20%緩衝，用於再訓練計算、監控和維護。重新計算。

如果您的臨界點等於或低於您當前的客戶數量，經濟學傾向於微調。如果它遠高於您當前的客戶數量，請繼續使用API，直到您增長到臨界點區域。

決策框架

API成本線性擴展。微調成本主要是固定的。這意味著答案幾乎總是相同的：隨著規模擴大，微調勝出。

例外情況：

您在輕量模型上有1-2個客戶。 如果您在低量上為2個客戶運行GPT-4o-mini，API成本總計$30-60/月。不要添加$133/月的基礎設施來節省$30。
您需要前沿推理。 一些任務確實需要GPT-4o或Claude 3.5 Sonnet級別的推理。微調的70億模型無法在複雜的多步驟推理任務上匹配它們。對於這些工作負載，API成本是獲取前沿智能的代價。
您的客戶需要最新模型。 如果您的價值主張是「我們讓您使用最新的AI」，並且客戶期望每季度升級模型，微調會造成可能不值得的再訓練負擔。

對於其他所有人——這是大多數為商業客戶運行生產工作負載的AI代理商——數學在超過3-5個客戶後傾向微調。利潤改善為10-15個百分點，每月轉化為數千美元的額外毛利潤。

對您自己的帳目運算數字。計算器不會說謊。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →