SaaS AI 成本峭壁：為什麼微調在 10K+ 用戶時勝過 API

每家 SaaS 公司的成長中都有一個特定的時刻，AI API 成本從四捨五入的誤差變成您的 CFO 詢問的一個項目。我們稱之為成本峭壁：線性 API 成本與您的成長曲線相撞，您的 AI 功能利潤率在一個季度內從健康變得不可持續。

本文提供了確切的計算。到最後，您將知道您的成本峭壁、您的盈虧平衡點，以及如何應對。

成本峭壁解釋

SaaS 基礎設施成本是次線性的。每月花費 $200 的數據庫伺服器可以處理比 $20 伺服器多 10 倍的用戶。CDN 成本增長緩慢，因為大多數內容都被緩存了。支持成本增長緩慢，因為文檔和自助服務處理邊際用戶。

AI API 成本是線性的。每個查詢成本相同。第 100,000 個查詢的成本與第一個相同。沒有規模經濟，沒有緩存優勢（每個查詢都是唯一的），沒有邊際成本降低。

這造成了分歧。您每個用戶的收入是固定的（或通過追加銷售緩慢增長）。您每個用戶的 AI 成本是固定的。但您的非 AI 成本隨著規模擴大而下降。結果：隨著您的成長，AI 成本成為您 COGS 的越來越大的百分比。

成本峭壁的可視化：

每用戶/月成本
│
$12 ┤                                          ╱ API 成本
    │                                       ╱
$10 ┤                                    ╱
    │                                 ╱
 $8 ┤                              ╱
    │                           ╱
 $6 ┤                        ╱
    │                     ╱
 $4 ┤                  ╱
    │               ╱
 $2 ┤────────────────────────────────────── 微調（固定）
    │         ╱
 $0 ┤──────╱───────────────────────────────
    └──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──→
      1K 2K 5K 10K 20K 50K 100K        用戶

API 成本線持續攀升。微調成本線基本持平。它們之間的差距是您的利潤——或者是您的利潤侵蝕。

各成長階段的總擁有成本

讓我們對一家增加 AI 功能的真實 SaaS 公司進行建模。假設：

AI 功能：內容建議、搜索和分類
每個活躍用戶每天平均 15 個 AI 查詢
每個查詢平均 600 個 token（輸入 + 輸出）
40% 的註冊用戶是月活躍用戶
GPT-4o-mini 定價：輸入 $0.15/1M token，輸出 $0.60/1M token（混合約 $0.30/1M）

種子階段：500-2,000 用戶

指標	數值
註冊用戶	1,500
活躍用戶（40%）	600
每日 AI 查詢	9,000
月度 AI 查詢	270,000
月度 Token	162M
月度 API 成本	$48.60
每活躍用戶月度成本	$0.08
毛利率影響	可忽略不計

在這個階段，API 成本是看不見的。$48/月比您的 Slack 費用還少。這就是為什麼每個 SaaS 創始人都從 API 開始——經濟學是合理的。

A 輪：5,000-20,000 用戶

指標	數值
註冊用戶	12,000
活躍用戶（40%）	4,800
每日 AI 查詢	72,000
月度 AI 查詢	2,160,000
月度 Token	1.3B
月度 API 成本	$389
每活躍用戶月度成本	$0.08
毛利率影響	1-3%

仍然可管理。$389/月是一個項目但不是危機。但是，請注意每個活躍用戶的成本是相同的——規模經濟為零。而且您仍然在使用 GPT-4o-mini。如果任何功能需要 GPT-4o（貴 10 倍），這個數字就會跳到 $3,890。

B 輪：50,000-200,000 用戶

指標	數值
註冊用戶	80,000
活躍用戶（40%）	32,000
每日 AI 查詢	480,000
月度 AI 查詢	14,400,000
月度 Token	8.6B
月度 API 成本	$2,592
每活躍用戶月度成本	$0.08
毛利率影響	3-8%

現在峭壁可見了。$2,592/月是 $31,104/年。如果您的 ARPU 是 $25/月，AI 成本佔收入的 0.3%——仍然很小。但這只是用於簡單查詢的 GPT-4o-mini。

真實數字更糟糕。 因為有隱藏的乘數。

隱藏成本乘數

上面的基礎 token 計算是天真的。在生產中，幾個因素使您的實際 API 成本乘以理論最小值的 1.5-4 倍。

乘數一：系統提示（1.3-1.8x）

每個 API 調用都包含一個系統提示。為 SaaS 功能精心設計的系統提示通常是 200-500 個 token。該系統提示在每個查詢中都被發送。它不會改變，但您每次都要為它付費。

系統提示長度	每次查詢增加成本	月度影響（14.4M 查詢）
200 個 token	$0.00003	$432
500 個 token	$0.000075	$1,080
1,000 個 token	$0.00015	$2,160

500 個 token 的系統提示在 B 輪規模下增加了 $1,080/月。這是基礎成本的 1.4x 乘數。

乘數二：RAG 上下文（1.5-2.5x）

如果您的 AI 功能使用檢索增強生成（RAG）——提取相關文件、用戶資料或產品上下文——您每次查詢注入 500-2,000 個 token 的上下文。您按輸入 token 費率為所有這些付費。

RAG 上下文長度	每次查詢增加成本	月度影響（14.4M 查詢）
500 個 token	$0.000075	$1,080
1,000 個 token	$0.00015	$2,160
2,000 個 token	$0.0003	$4,320

具有 1,000 個 token 上下文的 RAG 為您的基礎成本增加了 1.8x 乘數。

乘數三：重試和回退（1.1-1.3x）

API 調用失敗。速率限制觸發。當輸出格式不正確或未通過驗證時，需要重新生成響應。在生產中，5-15% 的查詢至少有一次重試。

重試率	乘數
5%	1.05x
10%	1.10x
15%	1.15x
20%（回退到更大模型）	1.30x

乘數四：對話歷史（1.5-3x）

如果您的 AI 功能維護對話上下文（聊天、多輪搜索、迭代編輯），您在每個請求中重新發送整個對話歷史。5 輪對話意味著第 5 條消息包括所有之前的消息作為上下文。

平均輪數	上下文增長	有效乘數
1（單輪）	1x	1.0x
3 輪	平均 2.5x	1.8x
5 輪	平均 4x	2.5x
10 輪	平均 7x	3.0x

組合乘數

這些相乘在一起：

場景	系統提示	RAG	重試	歷史	組合
簡單（分類）	1.3x	1.0x	1.1x	1.0x	1.43x
標準（搜索 + 上下文）	1.4x	1.8x	1.1x	1.0x	2.77x
複雜（對話 + RAG）	1.5x	2.0x	1.2x	2.0x	7.20x

標準 AI 功能的真實 B 輪成本：

$2,592 基礎 x 2.77 乘數 = $7,180/月 = $86,160/年

這不是四捨五入的誤差。那是一個工程師的薪水。

盈虧平衡分析：API 與微調

部署在專用基礎設施上的微調模型有固定的月度成本，無論查詢量如何。以下是盈虧平衡計算。

微調模型成本（固定）

組件	一次性	月度
訓練（Ertas 平台）	$0-50	$0
推理伺服器（7B 模型，Q4）	$0	$45-95
模型存儲和管理	$0	$5-10
總計	$0-50	$50-105

以 7B 模型在有能力的 CPU 實例上的中點 $75/月。

盈虧平衡表

月度查詢	API 成本（GPT-4o-mini，2x 乘數）	微調成本	API 更划算？	月度節省
10,000	$3.60	$75	是	API 省 $71
50,000	$18	$75	是	API 省 $57
100,000	$36	$75	是	API 省 $39
200,000	$72	$75	盈虧平衡	約 $0
500,000	$180	$75	否	微調省 $105
1,000,000	$360	$75	否	微調省 $285
5,000,000	$1,800	$95	否	微調省 $1,705
14,400,000	$5,184	$95	否	微調省 $5,089

盈虧平衡：約 200,000 查詢/月。 這大約是每天 15 個查詢的 1,100 個活躍用戶。

使用標準功能的完整 2.77x 乘數：

月度查詢	API 成本（2.77x 乘數）	微調	節省
200,000	$199	$75	62%
1,000,000	$997	$75	92%
5,000,000	$4,986	$95	98%
14,400,000	$14,357	$95	99%

使用現實的乘數，盈虧平衡降至約 75,000 查詢/月——大約 420 個活躍用戶。

真實擴展數字：$12 到 $3,000

以下是大多數 SaaS 創始人經歷的進展：

階段	活躍用戶	月度 API 成本	微調成本	差異
原型	50	$12	$45	API 更便宜
早期牽引	500	$89	$45	微調省 $44
產品市場契合	2,000	$340	$55	微調省 $285
A 輪增長	5,000	$620	$65	微調省 $555
擴展中	15,000	$1,850	$85	微調省 $1,765
B 輪	32,000	$3,100	$95	微調省 $3,005

API 成本從 $12/月增長到 $3,100/月——用戶增加 640 倍，成本增加 258 倍。微調成本從 $45/月增長到 $95/月——增加 2.1 倍。這就是單個表格中的成本峭壁。

為什麼投資者關注 AI 利潤率

如果您在融資，您的 AI 成本結構比大多數創始人意識到的更重要。

利潤率對話

投資者根據毛利率評估 SaaS 公司。基準是 75-85%。AI API 成本壓縮了這個數字。

場景	每用戶收入	非 AI COGS	AI COGS（API）	毛利率
無 AI 功能	$25	$3	$0	88%
通過 API 的 AI（輕度使用）	$25	$3	$2	80%
通過 API 的 AI（重度使用）	$25	$3	$6	64%
通過微調模型的 AI	$25	$3	$0.15	87%

毛利率 64% 的 SaaS 與 87% 毛利率的估值倍數非常不同。在 10x ARR 倍數基準下，差異是實質性的：

ARR	毛利率	隱含倍數	估值
$5M	64%	6-8x	$30-40M
$5M	87%	10-14x	$50-70M

這是 $20-30M 的估值差異，完全由 AI 成本結構驅動。相同的產品、相同的用戶、相同的收入——不同的基礎設施。

您將面臨的盡職調查問題

精明的投資者現在問：

「您的 COGS 中有多少百分比是 AI API 支出？」
「隨著您的擴展，每個用戶的 AI 成本如何變化？」
「您擁有自己的模型還是依賴供應商 API？」
「如果 OpenAI 將價格提高 2 倍，您的利潤率會發生什麼？」

如果您對問題 2 的回答是「它保持不變」（API）與「它下降」（微調），這標誌著根本不同的業務。

供應商風險因素

除了成本，API 依賴引入了投資者越來越多標記的供應商風險：

價格變化： OpenAI 在 2 年內更改了 4 次定價。有時降價，有時特定模型漲價。您沒有任何控制權。
速率限制： 在規模化時，您遇到需要架構更改或昂貴企業層的速率限制。
模型棄用： 當 OpenAI 棄用一個模型（例如 GPT-3.5-turbo）時，您有幾週時間遷移。您的微調模型永遠運行。
資料隱私： 每個查詢都去到第三方。對於受監管的行業，這是一個破壞交易的因素。

遷移路徑

您不需要一夜之間切換。明智的路徑是漸進式的：

第一階段：識別（第 1 週）

按成本審計您的 AI 功能：

功能	月度查詢	月度 API 成本	% 總 AI 支出
AI 搜索	5,000,000	$1,800	45%
內容建議	3,000,000	$1,200	30%
分類/標記	4,000,000	$400	10%
摘要	1,000,000	$600	15%

從最高流量、最簡單的功能開始。分類和搜索是理想的第一批候選——窄範圍任務、小模型、高流量。

第二階段：微調（第 2-3 週）

拿您最高成本的功能。從您的生產日誌中收集 200-500 個訓練示例。微調一個 3B-7B 模型。根據您的 API 基準測試它。

對於大多數窄範圍任務（搜索、分類、提取），微調的 3B 模型在 2-3% 準確率內匹配 GPT-4o-mini 的質量。

第三階段：部署和監控（第 3-4 週）

在與 API 並行運行微調模型 1-2 週。比較質量、延遲和成本。滿意後，將流量路由到微調模型。

第四階段：擴展（第 2-3 個月）

遷移下一個功能。然後下一個。每次遷移都比上一次更快，因為您已經有了基礎設施和工作流程。

目標：90 天內 60-80% 的 AI 查詢在微調模型上運行。剩餘的 20-40%（複雜推理、多步任務）可能留在 API 上，直到模型能力提高。

Ship AI that runs on your users' devices.

Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

數學不說謊

成本峭壁不是一個理論問題。對於任何在 API 定價上擴展 AI 功能的 SaaS，這是算術上的必然。

在 1,000 個活躍用戶時，API 每月花費 $89。可管理。

在 10,000 個活躍用戶時，API 每月花費 $890。引人注意。

在 32,000 個活躍用戶時，API 每月花費 $3,100（還在增長）。那是 $37,200/年——一個初級工程師的成本。

微調模型在這些規模中的任何一個每月只花費 $45-95。計算結果一目了然。

在 5,000 個用戶——在峭壁成為危機之前——就弄清楚這一點的公司建立了持久的利潤率優勢，隨著它們的成長而複利增長。在 50,000 個用戶時才弄清楚的公司已經花費了數十萬美元不必要的費用。

為您的產品計算數字。峭壁比您想象的更近。