Back to blog
    AI代理商利潤計算器:API成本與微調模型的經濟學
    agencycalculatormarginscost-comparisonsegment:agency

    AI代理商利潤計算器:API成本與微調模型的經濟學

    停止猜測您的利潤。這個計算器精確分析您在每個客戶的API呼叫與微調模型上的花費,並顯示微調何時能回收成本的臨界點。

    EErtas Team·

    大多數AI代理商老闆能在500美元以內說出他們的月收入。問他們每個客戶的AI基礎設施成本,你會得到停頓、猜測,以及聽起來像是臨時編造的數字。

    這不是性格缺陷。API帳單儀表板的設計是顯示您的總體支出,而非每客戶盈利能力。當您將15個客戶通過同一個OpenAI帳戶路由時,找出哪個客戶每月消耗400美元、哪個消耗80美元需要沒有人做的手動工作。

    結果:您在盲目定價。您不知道哪些客戶是盈利的,哪些是虧損的,以及API和微調經濟學之間的臨界點在哪裡。

    本文是一個計算器。我們將逐步介紹兩種模型的數學計算——基於API和微調——讓您可以對自己的客戶群運算數字並做出明智的決策。

    第一節:API成本計算

    每個客戶每月API成本的核心公式:

    每月API成本 = (每次互動平均令牌數)×(每日互動次數)×(30天)×(每令牌價格)

    讓我們用實際數字分解每個變量。

    每次互動平均令牌數

    這因使用案例而異,但以下是生產部署的基準:

    使用案例平均輸入令牌平均輸出令牌每次互動總計
    客戶支援聊天機器人350250600
    文件問答 / RAG8004001,200
    線索資格確認200150350
    內容生成3008001,100
    數據提取 / 分類500100600

    這些是平均值。您的實際數字取決於對話長度、上下文視窗使用情況,以及提示中有多少是系統指令相對於用戶輸入。

    每日互動次數

    再次因客戶規模和使用案例而異:

    客戶類型每日互動次數
    小型企業(1-10名員工)20-50
    中型市場(50-500名員工)100-300
    企業(500名以上員工)500-2,000

    對於服務中小型客戶的典型AI代理商,每個客戶每天50-150次互動是合理的規劃數字。

    每令牌價格(2026年3月)

    模型輸入(每100萬令牌)輸出(每100萬令牌)
    GPT-4o$2.50$10.00
    GPT-4o-mini$0.15$0.60
    Claude 3.5 Sonnet$3.00$15.00
    Claude 3.5 Haiku$0.25$1.25

    實際示例:客戶支援聊天機器人

    客戶:中型市場公司,每日100次互動,使用GPT-4o。

    • 輸入令牌:350令牌 × 100次互動 × 30天 = 1,050,000令牌/月
    • 輸出令牌:250令牌 × 100次互動 × 30天 = 750,000令牌/月
    • 輸入成本:1.05M × $2.50/1M = $2.63
    • 輸出成本:0.75M × $10.00/1M = $7.50
    • 每月基礎成本:$10.13

    等等——這看起來很低。確實如此,如果您只計算原始令牌的話。這裡是乘數的作用。

    隱藏乘數

    重試率: 3-8%的API呼叫因速率限制、超時或格式錯誤的回應而失敗,需要重試。在基礎成本上增加5%。

    上下文視窗增長: 對話在會話中變得更長。第一條消息可能總共600令牌,但在同一對話的第8條消息時,您發送的上下文超過4,000令牌。對於多輪聊天機器人,將您的平均值乘以2.5-3倍。

    系統提示開銷: 每個請求都包括系統提示,通常為500-2,000令牌。這在所有互動中是恆定的,通常被排除在簡單成本計算之外。

    重度用戶: 10-15%的用戶產生50%以上的令牌量。您的「每天100次互動」平均值掩蓋了這樣一個事實:一些用戶進行20條消息的對話,而其他人只問一個問題。

    嵌入成本: 如果您在運行RAG,您還需要支付嵌入生成費用。以每100萬令牌$0.02-0.13的價格,這增加了總成本的5-15%。

    讓我們用乘數重新計算:

    • 系統提示:1,000令牌 × 100次互動 × 30天 = 3,000,000個額外輸入令牌
    • 多輪上下文:基礎令牌 × 2.5 = 2,625,000輸入 + 1,875,000輸出
    • 重試率:× 1.05
    • 重度用戶調整:× 1.15

    修訂輸入:(1,050,000 + 3,000,000) × 2.5 × 1.05 × 1.15 = 12,251,063令牌 修訂輸出:750,000 × 2.5 × 1.05 × 1.15 = 2,268,281令牌

    • 輸入成本:12.25M × $2.50/1M = $30.63
    • 輸出成本:2.27M × $10.00/1M = $22.68
    • 每客戶每月實際成本:$53.31(GPT-4o)

    對於使用Claude 3.5 Sonnet的客戶,每100萬令牌$3.00/$15.00:

    • 輸入成本:12.25M × $3.00/1M = $36.75
    • 輸出成本:2.27M × $15.00/1M = $34.02
    • 每客戶每月實際成本:$70.77

    現在乘以您的客戶群。15個客戶,每月平均$60 = 每月$900的API成本。這是保守的情況。大量客戶或更重的工作負載可以將單個客戶成本推高至$200-500/月,使總成本達到$2,000-4,000/月。

    但關鍵在於:這些成本隨著您的客戶增長而增長。成功的部署驅動更多使用,從而驅動更多成本。您做得越好,它花費您的越多。

    第二節:微調成本計算

    微調模型的成本結構從根本上不同:它是固定的,而非可變的。

    每月固定成本

    成本項目每月費用備注
    Ertas計劃(每席位)$14.50微調、評估、適配器管理
    帶GPU的VPS$50-120Hetzner、Lambda、RunPod等
    域名/SSL$1-2每客戶API端點
    監控$0-10正常運行時間監控、基本APM

    對於3人代理商:$43.50(Ertas)+ $80(VPS)+ $10(雜項)= 每月總計$133.50

    每客戶一次性成本

    成本項目一次性費用備注
    數據清理5-10小時人工如果自己做則不是現金成本
    微調計算包含在Ertas計劃中無額外費用
    部署/整合2-4小時人工API端點、客戶整合

    一次性成本是人工,而非基礎設施。您應該通過設置費用(每客戶$3,000-10,000)來回收這些費用。

    每客戶邊際成本

    一旦您的基礎設施運行,添加新客戶的成本為:

    • LoRA適配器存儲:約150MB(可忽略不計)
    • 推論計算:在所有客戶間共享(在GPU飽和之前沒有邊際成本)
    • 域名設置:$1-2/月
    • 每客戶總邊際成本:約$2-5/月

    這個數字改變了經濟學。每個額外客戶的基礎設施成本為$2-5/月。相比之下,API成本為$60-500/月。

    第三節:臨界點分析

    在哪個客戶數量下,微調超越API成本?讓我們建模。

    假設

    • 每客戶平均API成本:$180/月(中間範圍,計入乘數)
    • 微調基礎設施:$133.50/月基礎 + 每客戶$5/月
    • 客戶收入:平均每月$1,500固定費用

    規模化的數學

    客戶數API總COGSAPI毛利率微調總COGS微調毛利率
    1$18088.0%$138.5090.8%
    3$54088.0%$148.5096.7%
    5$90088.0%$158.5097.9%
    8$1,44088.0%$173.5098.6%
    15$2,70088.0%$208.5099.1%
    25$4,50088.0%$258.5099.3%

    臨界點在1個客戶。在這個模型中,微調在每個規模都比API便宜,因為基礎設施($133.50)低於即使是單個客戶的API成本($180)。

    但這假設每月平均$180。如果您的API成本更低,因為您使用GPT-4o-mini或Claude Haiku呢?

    低成本API情景

    如果您的每客戶平均API成本為$40/月(較便宜模型上的輕量工作負載):

    客戶數API總COGS微調總COGS哪個勝出?
    1$40$138.50API勝出
    3$120$148.50API勝出
    4$160$153.50微調勝出
    5$200$158.50微調勝出
    10$400$183.50微調勝出

    在低成本情景中,臨界點在4個客戶。在較便宜模型上運行輕量工作負載的4個客戶以下,API成本實際上低於維護微調基礎設施。

    高成本API情景

    如果您的每客戶平均API成本為$350/月(前沿模型上的重量工作負載):

    客戶數API總COGS微調總COGS哪個勝出?
    1$350$138.50微調勝出
    5$1,750$158.50微調勝出
    15$5,250$208.50微調勝出

    在高成本情景中,微調從第一個客戶就勝出。節省是可觀的:15個客戶每月節省$5,041.50。

    結論

    對於大多數代理商,微調在超過3-5個客戶後超越API成本。確切的臨界點取決於:

    • 您目前使用的API模型
    • 每個客戶的平均互動量
    • 工作負載的複雜性(簡單問答 vs. 多輪對話 vs. 文件處理)

    如果您在GPT-4o、Claude 3.5 Sonnet或類似前沿模型上運行任何客戶,臨界點幾乎肯定在1-2個客戶。

    第四節:兩者的隱藏成本

    上面的計算器涵蓋直接基礎設施成本。但兩側都有影響現實世界經濟學的隱藏成本。

    隱藏的API成本

    速率限制。 當您達到速率限制時,您要麼排隊請求(降低用戶體驗),要麼支付更高層級費用。OpenAI的第5層速率限制為每分鐘10,000個請求——對大多數代理商來說足夠,但在流量高峰期間達到第3/4層限制意味著請求丟棄或昂貴的升級。

    模型棄用。 OpenAI在2025年6月棄用了GPT-4-0613。如果您的客戶提示詞針對該模型進行了優化,遷移需要在每個客戶上進行測試和調整。這是未得到補償的工作,不出現在成本計算中。

    停機。 雲端API中斷不是您的錯,但這是您的問題。2小時的OpenAI中斷意味著您客戶的聊天機器人2小時返回錯誤。您承擔解釋發生了什麼的支援成本。

    供應商依賴。 您的整個業務運行在您無法控制的平台上。價格變化、政策變化、使用限制——這些中的任何一個都可以在一夜之間從根本上改變您的經濟狀況。這不是您可以放入試算表的成本,但它是真實的。

    隱藏的微調成本

    再訓練節奏。 隨著客戶數據變化,模型需要定期再訓練。預算每季度每個客戶30-60分鐘的計算時間,加上2-4小時的數據準備工作。這是必須包含在您的固定費用定價中的持續工作。

    硬體維護。 如果您在運行自己的GPU伺服器,請預算偶爾的故障、操作系統更新和驅動程序更新。如果您使用雲端GPU(Hetzner、Lambda),提供商處理硬體,但您仍然管理軟體堆疊。

    推論監控。 您需要知道您的推論伺服器何時緩慢、過載或返回錯誤。基本監控(Uptime Robot + 簡單健康檢查)是免費的。更複雜的監控(延遲百分位數、每客戶儀表板)需要一些設置。

    品質保證。 微調模型可能會出現與API模型不同的故障模式。定期品質採樣(每月每個客戶50-100個生產查詢)在客戶注意到問題之前發現問題。這是人工成本,而非基礎設施成本,但它是真實的。

    運算您自己的數字

    以下是計算您特定臨界點的框架:

    第1步: 登入您的API提供商儀表板。導出您最近3個月的使用數據。計算您的平均月支出。

    第2步: 如果可能,按客戶標記使用情況。如果無法直接標記,根據客戶量比率進行估算。即使是粗略的分類(客戶A使用約40%的總量,客戶B使用約25%等)也比單一總計數字更好。

    第3步: 將總月API支出除以活躍客戶數。這是您的每客戶平均API成本。

    第4步: 計算您的微調基礎成本:Ertas計劃($14.50/席位 × 團隊規模)+ VPS($50-120/月,依GPU等級而定)。

    第5步: 計算臨界點:微調基礎成本 ÷ 每客戶平均API成本 = 微調達到收支平衡的客戶數量。

    第6步: 在微調方面增加20%緩衝,用於再訓練計算、監控和維護。重新計算。

    如果您的臨界點等於或低於您當前的客戶數量,經濟學傾向於微調。如果它遠高於您當前的客戶數量,請繼續使用API,直到您增長到臨界點區域。

    決策框架

    API成本線性擴展。微調成本主要是固定的。這意味著答案幾乎總是相同的:隨著規模擴大,微調勝出。

    例外情況:

    • 您在輕量模型上有1-2個客戶。 如果您在低量上為2個客戶運行GPT-4o-mini,API成本總計$30-60/月。不要添加$133/月的基礎設施來節省$30。
    • 您需要前沿推理。 一些任務確實需要GPT-4o或Claude 3.5 Sonnet級別的推理。微調的70億模型無法在複雜的多步驟推理任務上匹配它們。對於這些工作負載,API成本是獲取前沿智能的代價。
    • 您的客戶需要最新模型。 如果您的價值主張是「我們讓您使用最新的AI」,並且客戶期望每季度升級模型,微調會造成可能不值得的再訓練負擔。

    對於其他所有人——這是大多數為商業客戶運行生產工作負載的AI代理商——數學在超過3-5個客戶後傾向微調。利潤改善為10-15個百分點,每月轉化為數千美元的額外毛利潤。

    對您自己的帳目運算數字。計算器不會說謊。


    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    延伸閱讀

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading