
SaaS AI 成本峭壁:為什麼微調在 10K+ 用戶時勝過 API
從種子輪到 B 輪的 AI 功能總擁有成本分析。關於成本峭壁、隱藏乘數、盈虧平衡點的真實計算,以及為什麼投資者關注 AI 利潤率。
每家 SaaS 公司的成長中都有一個特定的時刻,AI API 成本從四捨五入的誤差變成您的 CFO 詢問的一個項目。我們稱之為成本峭壁:線性 API 成本與您的成長曲線相撞,您的 AI 功能利潤率在一個季度內從健康變得不可持續。
本文提供了確切的計算。到最後,您將知道您的成本峭壁、您的盈虧平衡點,以及如何應對。
成本峭壁解釋
SaaS 基礎設施成本是次線性的。每月花費 $200 的數據庫伺服器可以處理比 $20 伺服器多 10 倍的用戶。CDN 成本增長緩慢,因為大多數內容都被緩存了。支持成本增長緩慢,因為文檔和自助服務處理邊際用戶。
AI API 成本是線性的。每個查詢成本相同。第 100,000 個查詢的成本與第一個相同。沒有規模經濟,沒有緩存優勢(每個查詢都是唯一的),沒有邊際成本降低。
這造成了分歧。您每個用戶的收入是固定的(或通過追加銷售緩慢增長)。您每個用戶的 AI 成本是固定的。但您的非 AI 成本隨著規模擴大而下降。結果:隨著您的成長,AI 成本成為您 COGS 的越來越大的百分比。
成本峭壁的可視化:
每用戶/月成本
│
$12 ┤ ╱ API 成本
│ ╱
$10 ┤ ╱
│ ╱
$8 ┤ ╱
│ ╱
$6 ┤ ╱
│ ╱
$4 ┤ ╱
│ ╱
$2 ┤────────────────────────────────────── 微調( 固定)
│ ╱
$0 ┤──────╱───────────────────────────────
└──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──→
1K 2K 5K 10K 20K 50K 100K 用戶
API 成本線持續攀升。微調成本線基本持平。它們之間的差距是您的利潤——或者是您的利潤侵蝕。
各成長階段的總擁有成本
讓我們對一家增加 AI 功能的真實 SaaS 公司進行建模。假設:
- AI 功能:內容建議、搜索和分類
- 每個活躍用戶每天平均 15 個 AI 查詢
- 每個查詢平均 600 個 token(輸入 + 輸出)
- 40% 的註冊用戶是月活躍用戶
- GPT-4o-mini 定價:輸入 $0.15/1M token,輸出 $0.60/1M token(混合約 $0.30/1M)
種子階段:500-2,000 用戶
| 指標 | 數值 |
|---|---|
| 註冊用戶 | 1,500 |
| 活躍用戶(40%) | 600 |
| 每日 AI 查詢 | 9,000 |
| 月度 AI 查詢 | 270,000 |
| 月度 Token | 162M |
| 月度 API 成本 | $48.60 |
| 每活躍用戶月度成本 | $0.08 |
| 毛利率影響 | 可忽略不計 |
在這個階段,API 成本是看不見的。$48/月比您的 Slack 費用還少。這就是為什麼每個 SaaS 創始人都從 API 開始——經濟學是合理的。
A 輪:5,000-20,000 用戶
| 指標 | 數值 |
|---|---|
| 註冊用戶 | 12,000 |
| 活躍用戶(40%) | 4,800 |
| 每日 AI 查詢 | 72,000 |
| 月度 AI 查詢 | 2,160,000 |
| 月度 Token | 1.3B |
| 月度 API 成本 | $389 |
| 每活躍用戶月度成本 | $0.08 |
| 毛利率影響 | 1-3% |
仍然可管理。$389/月 是一個項目但不是危機。但是,請注意每個活躍用戶的成本是相同的——規模經濟為零。而且您仍然在使用 GPT-4o-mini。如果任何功能需要 GPT-4o(貴 10 倍),這個數字就會跳到 $3,890。
B 輪:50,000-200,000 用戶
| 指標 | 數值 |
|---|---|
| 註冊用戶 | 80,000 |
| 活躍用戶(40%) | 32,000 |
| 每日 AI 查詢 | 480,000 |
| 月度 AI 查詢 | 14,400,000 |
| 月度 Token | 8.6B |
| 月度 API 成本 | $2,592 |
| 每活躍用戶月度成本 | $0.08 |
| 毛利率影響 | 3-8% |
現在峭壁可見了。$2,592/月 是 $31,104/年。如果您的 ARPU 是 $25/月,AI 成本佔收入的 0.3%——仍然很小。但這只是用於簡單查詢的 GPT-4o-mini。
真實數字更糟糕。 因為有隱藏的乘數。
隱藏成本乘數
上面的基礎 token 計算是天真的。在生產中,幾個因 素使您的實際 API 成本乘以理論最小值的 1.5-4 倍。
乘數一:系統提示(1.3-1.8x)
每個 API 調用都包含一個系統提示。為 SaaS 功能精心設計的系統提示通常是 200-500 個 token。該系統提示在每個查詢中都被發送。它不會改變,但您每次都要為它付費。
| 系統提示長度 | 每次查詢增加成本 | 月度影響(14.4M 查詢) |
|---|---|---|
| 200 個 token | $0.00003 | $432 |
| 500 個 token | $0.000075 | $1,080 |
| 1,000 個 token | $0.00015 | $2,160 |
500 個 token 的系統提示在 B 輪規模下增加了 $1,080/月。這是基礎成本的 1.4x 乘數。
乘數二:RAG 上下文(1.5-2.5x)
如果您的 AI 功能使用檢索增強生成(RAG)——提取相關文件、用戶資料或產品上下文——您每次查詢注入 500-2,000 個 token 的上下文。您按輸入 token 費率為所有這些付費。
| RAG 上下文長度 | 每次查詢增加成本 | 月度影響(14.4M 查詢) |
|---|---|---|
| 500 個 token | $0.000075 | $1,080 |
| 1,000 個 token | $0.00015 | $2,160 |
| 2,000 個 token | $0.0003 | $4,320 |
具有 1,000 個 token 上下文的 RAG 為您的基礎成本增加了 1.8x 乘數。
乘數三:重試和回退(1.1-1.3x)
API 調用失敗。速率限制觸發。當輸出格式不正確或未通過驗證時,需要重新生成響應。在生產中,5-15% 的查詢至少有一次重試。
| 重試率 | 乘數 |
|---|---|
| 5% | 1.05x |
| 10% | 1.10x |
| 15% | 1.15x |
| 20%(回退到更大模型) | 1.30x |
乘數四:對話歷史(1.5-3x)
如果您的 AI 功能維護對話上下文(聊天、多輪搜索、迭代編輯),您在每個請求中重新發送整個對話歷史。5 輪對話意味著第 5 條消息包括所有之前的消息作為上下文。
| 平均輪數 | 上下文增長 | 有效乘數 |
|---|---|---|
| 1(單輪) | 1x | 1.0x |
| 3 輪 | 平均 2.5x | 1.8x |
| 5 輪 | 平均 4x | 2.5x |
| 10 輪 | 平均 7x | 3.0x |
組合乘數
這些相乘在一起:
| 場景 | 系統提示 | RAG | 重試 | 歷史 | 組合 |
|---|---|---|---|---|---|
| 簡單(分類) | 1.3x | 1.0x | 1.1x | 1.0x | 1.43x |
| 標準(搜 索 + 上下文) | 1.4x | 1.8x | 1.1x | 1.0x | 2.77x |
| 複雜(對話 + RAG) | 1.5x | 2.0x | 1.2x | 2.0x | 7.20x |
標準 AI 功能的真實 B 輪成本:
$2,592 基礎 x 2.77 乘數 = $7,180/月 = $86,160/年
這不是四捨五入的誤差。那是一個工程師的薪水。
盈虧平衡分析:API 與微調
部署在專用基礎設施上的微調模型有固定的月度成本,無論查詢量如何。以下是盈虧平衡計算。