Back to blog
    SaaS AI 成本峭壁:為什麼微調在 10K+ 用戶時勝過 API
    saascost-analysisfine-tuningscalingapi-costssegment:builder

    SaaS AI 成本峭壁:為什麼微調在 10K+ 用戶時勝過 API

    從種子輪到 B 輪的 AI 功能總擁有成本分析。關於成本峭壁、隱藏乘數、盈虧平衡點的真實計算,以及為什麼投資者關注 AI 利潤率。

    EErtas Team·

    每家 SaaS 公司的成長中都有一個特定的時刻,AI API 成本從四捨五入的誤差變成您的 CFO 詢問的一個項目。我們稱之為成本峭壁:線性 API 成本與您的成長曲線相撞,您的 AI 功能利潤率在一個季度內從健康變得不可持續。

    本文提供了確切的計算。到最後,您將知道您的成本峭壁、您的盈虧平衡點,以及如何應對。

    成本峭壁解釋

    SaaS 基礎設施成本是次線性的。每月花費 $200 的數據庫伺服器可以處理比 $20 伺服器多 10 倍的用戶。CDN 成本增長緩慢,因為大多數內容都被緩存了。支持成本增長緩慢,因為文檔和自助服務處理邊際用戶。

    AI API 成本是線性的。每個查詢成本相同。第 100,000 個查詢的成本與第一個相同。沒有規模經濟,沒有緩存優勢(每個查詢都是唯一的),沒有邊際成本降低。

    這造成了分歧。您每個用戶的收入是固定的(或通過追加銷售緩慢增長)。您每個用戶的 AI 成本是固定的。但您的非 AI 成本隨著規模擴大而下降。結果:隨著您的成長,AI 成本成為您 COGS 的越來越大的百分比。

    成本峭壁的可視化:

    每用戶/月成本
    │
    $12 ┤                                          ╱ API 成本
        │                                       ╱
    $10 ┤                                    ╱
        │                                 ╱
     $8 ┤                              ╱
        │                           ╱
     $6 ┤                        ╱
        │                     ╱
     $4 ┤                  ╱
        │               ╱
     $2 ┤────────────────────────────────────── 微調(固定)
        │         ╱
     $0 ┤──────╱───────────────────────────────
        └──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──→
          1K 2K 5K 10K 20K 50K 100K        用戶
    

    API 成本線持續攀升。微調成本線基本持平。它們之間的差距是您的利潤——或者是您的利潤侵蝕。

    各成長階段的總擁有成本

    讓我們對一家增加 AI 功能的真實 SaaS 公司進行建模。假設:

    • AI 功能:內容建議、搜索和分類
    • 每個活躍用戶每天平均 15 個 AI 查詢
    • 每個查詢平均 600 個 token(輸入 + 輸出)
    • 40% 的註冊用戶是月活躍用戶
    • GPT-4o-mini 定價:輸入 $0.15/1M token,輸出 $0.60/1M token(混合約 $0.30/1M)

    種子階段:500-2,000 用戶

    指標數值
    註冊用戶1,500
    活躍用戶(40%)600
    每日 AI 查詢9,000
    月度 AI 查詢270,000
    月度 Token162M
    月度 API 成本$48.60
    每活躍用戶月度成本$0.08
    毛利率影響可忽略不計

    在這個階段,API 成本是看不見的。$48/月比您的 Slack 費用還少。這就是為什麼每個 SaaS 創始人都從 API 開始——經濟學是合理的。

    A 輪:5,000-20,000 用戶

    指標數值
    註冊用戶12,000
    活躍用戶(40%)4,800
    每日 AI 查詢72,000
    月度 AI 查詢2,160,000
    月度 Token1.3B
    月度 API 成本$389
    每活躍用戶月度成本$0.08
    毛利率影響1-3%

    仍然可管理。$389/月 是一個項目但不是危機。但是,請注意每個活躍用戶的成本是相同的——規模經濟為零。而且您仍然在使用 GPT-4o-mini。如果任何功能需要 GPT-4o(貴 10 倍),這個數字就會跳到 $3,890。

    B 輪:50,000-200,000 用戶

    指標數值
    註冊用戶80,000
    活躍用戶(40%)32,000
    每日 AI 查詢480,000
    月度 AI 查詢14,400,000
    月度 Token8.6B
    月度 API 成本$2,592
    每活躍用戶月度成本$0.08
    毛利率影響3-8%

    現在峭壁可見了。$2,592/月 是 $31,104/年。如果您的 ARPU 是 $25/月,AI 成本佔收入的 0.3%——仍然很小。但這只是用於簡單查詢的 GPT-4o-mini。

    真實數字更糟糕。 因為有隱藏的乘數。

    隱藏成本乘數

    上面的基礎 token 計算是天真的。在生產中,幾個因素使您的實際 API 成本乘以理論最小值的 1.5-4 倍。

    乘數一:系統提示(1.3-1.8x)

    每個 API 調用都包含一個系統提示。為 SaaS 功能精心設計的系統提示通常是 200-500 個 token。該系統提示在每個查詢中都被發送。它不會改變,但您每次都要為它付費。

    系統提示長度每次查詢增加成本月度影響(14.4M 查詢)
    200 個 token$0.00003$432
    500 個 token$0.000075$1,080
    1,000 個 token$0.00015$2,160

    500 個 token 的系統提示在 B 輪規模下增加了 $1,080/月。這是基礎成本的 1.4x 乘數

    乘數二:RAG 上下文(1.5-2.5x)

    如果您的 AI 功能使用檢索增強生成(RAG)——提取相關文件、用戶資料或產品上下文——您每次查詢注入 500-2,000 個 token 的上下文。您按輸入 token 費率為所有這些付費。

    RAG 上下文長度每次查詢增加成本月度影響(14.4M 查詢)
    500 個 token$0.000075$1,080
    1,000 個 token$0.00015$2,160
    2,000 個 token$0.0003$4,320

    具有 1,000 個 token 上下文的 RAG 為您的基礎成本增加了 1.8x 乘數

    乘數三:重試和回退(1.1-1.3x)

    API 調用失敗。速率限制觸發。當輸出格式不正確或未通過驗證時,需要重新生成響應。在生產中,5-15% 的查詢至少有一次重試。

    重試率乘數
    5%1.05x
    10%1.10x
    15%1.15x
    20%(回退到更大模型)1.30x

    乘數四:對話歷史(1.5-3x)

    如果您的 AI 功能維護對話上下文(聊天、多輪搜索、迭代編輯),您在每個請求中重新發送整個對話歷史。5 輪對話意味著第 5 條消息包括所有之前的消息作為上下文。

    平均輪數上下文增長有效乘數
    1(單輪)1x1.0x
    3 輪平均 2.5x1.8x
    5 輪平均 4x2.5x
    10 輪平均 7x3.0x

    組合乘數

    這些相乘在一起:

    場景系統提示RAG重試歷史組合
    簡單(分類)1.3x1.0x1.1x1.0x1.43x
    標準(搜索 + 上下文)1.4x1.8x1.1x1.0x2.77x
    複雜(對話 + RAG)1.5x2.0x1.2x2.0x7.20x

    標準 AI 功能的真實 B 輪成本:

    $2,592 基礎 x 2.77 乘數 = $7,180/月 = $86,160/年

    這不是四捨五入的誤差。那是一個工程師的薪水。

    盈虧平衡分析:API 與微調

    部署在專用基礎設施上的微調模型有固定的月度成本,無論查詢量如何。以下是盈虧平衡計算。

    微調模型成本(固定)

    組件一次性月度
    訓練(Ertas 平台)$0-50$0
    推理伺服器(7B 模型,Q4)$0$45-95
    模型存儲和管理$0$5-10
    總計$0-50$50-105

    以 7B 模型在有能力的 CPU 實例上的中點 $75/月。

    盈虧平衡表

    月度查詢API 成本(GPT-4o-mini,2x 乘數)微調成本API 更划算?月度節省
    10,000$3.60$75API 省 $71
    50,000$18$75API 省 $57
    100,000$36$75API 省 $39
    200,000$72$75盈虧平衡約 $0
    500,000$180$75微調省 $105
    1,000,000$360$75微調省 $285
    5,000,000$1,800$95微調省 $1,705
    14,400,000$5,184$95微調省 $5,089

    盈虧平衡:約 200,000 查詢/月。 這大約是每天 15 個查詢的 1,100 個活躍用戶。

    使用標準功能的完整 2.77x 乘數:

    月度查詢API 成本(2.77x 乘數)微調節省
    200,000$199$7562%
    1,000,000$997$7592%
    5,000,000$4,986$9598%
    14,400,000$14,357$9599%

    使用現實的乘數,盈虧平衡降至約 75,000 查詢/月——大約 420 個活躍用戶。

    真實擴展數字:$12 到 $3,000

    以下是大多數 SaaS 創始人經歷的進展:

    階段活躍用戶月度 API 成本微調成本差異
    原型50$12$45API 更便宜
    早期牽引500$89$45微調省 $44
    產品市場契合2,000$340$55微調省 $285
    A 輪增長5,000$620$65微調省 $555
    擴展中15,000$1,850$85微調省 $1,765
    B 輪32,000$3,100$95微調省 $3,005

    API 成本從 $12/月增長到 $3,100/月——用戶增加 640 倍,成本增加 258 倍。微調成本從 $45/月增長到 $95/月——增加 2.1 倍。這就是單個表格中的成本峭壁。

    為什麼投資者關注 AI 利潤率

    如果您在融資,您的 AI 成本結構比大多數創始人意識到的更重要。

    利潤率對話

    投資者根據毛利率評估 SaaS 公司。基準是 75-85%。AI API 成本壓縮了這個數字。

    場景每用戶收入非 AI COGSAI COGS(API)毛利率
    無 AI 功能$25$3$088%
    通過 API 的 AI(輕度使用)$25$3$280%
    通過 API 的 AI(重度使用)$25$3$664%
    通過微調模型的 AI$25$3$0.1587%

    毛利率 64% 的 SaaS 與 87% 毛利率的估值倍數非常不同。在 10x ARR 倍數基準下,差異是實質性的:

    ARR毛利率隱含倍數估值
    $5M64%6-8x$30-40M
    $5M87%10-14x$50-70M

    這是 $20-30M 的估值差異,完全由 AI 成本結構驅動。相同的產品、相同的用戶、相同的收入——不同的基礎設施。

    您將面臨的盡職調查問題

    精明的投資者現在問:

    1. 「您的 COGS 中有多少百分比是 AI API 支出?」
    2. 「隨著您的擴展,每個用戶的 AI 成本如何變化?」
    3. 「您擁有自己的模型還是依賴供應商 API?」
    4. 「如果 OpenAI 將價格提高 2 倍,您的利潤率會發生什麼?」

    如果您對問題 2 的回答是「它保持不變」(API)與「它下降」(微調),這標誌著根本不同的業務。

    供應商風險因素

    除了成本,API 依賴引入了投資者越來越多標記的供應商風險:

    • 價格變化: OpenAI 在 2 年內更改了 4 次定價。有時降價,有時特定模型漲價。您沒有任何控制權。
    • 速率限制: 在規模化時,您遇到需要架構更改或昂貴企業層的速率限制。
    • 模型棄用: 當 OpenAI 棄用一個模型(例如 GPT-3.5-turbo)時,您有幾週時間遷移。您的微調模型永遠運行。
    • 資料隱私: 每個查詢都去到第三方。對於受監管的行業,這是一個破壞交易的因素。

    遷移路徑

    您不需要一夜之間切換。明智的路徑是漸進式的:

    第一階段:識別(第 1 週)

    按成本審計您的 AI 功能:

    功能月度查詢月度 API 成本% 總 AI 支出
    AI 搜索5,000,000$1,80045%
    內容建議3,000,000$1,20030%
    分類/標記4,000,000$40010%
    摘要1,000,000$60015%

    從最高流量、最簡單的功能開始。分類和搜索是理想的第一批候選——窄範圍任務、小模型、高流量。

    第二階段:微調(第 2-3 週)

    拿您最高成本的功能。從您的生產日誌中收集 200-500 個訓練示例。微調一個 3B-7B 模型。根據您的 API 基準測試它。

    對於大多數窄範圍任務(搜索、分類、提取),微調的 3B 模型在 2-3% 準確率內匹配 GPT-4o-mini 的質量。

    第三階段:部署和監控(第 3-4 週)

    在與 API 並行運行微調模型 1-2 週。比較質量、延遲和成本。滿意後,將流量路由到微調模型。

    第四階段:擴展(第 2-3 個月)

    遷移下一個功能。然後下一個。每次遷移都比上一次更快,因為您已經有了基礎設施和工作流程。

    目標:90 天內 60-80% 的 AI 查詢在微調模型上運行。剩餘的 20-40%(複雜推理、多步任務)可能留在 API 上,直到模型能力提高。

    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    數學不說謊

    成本峭壁不是一個理論問題。對於任何在 API 定價上擴展 AI 功能的 SaaS,這是算術上的必然。

    在 1,000 個活躍用戶時,API 每月花費 $89。可管理。

    在 10,000 個活躍用戶時,API 每月花費 $890。引人注意。

    在 32,000 個活躍用戶時,API 每月花費 $3,100(還在增長)。那是 $37,200/年——一個初級工程師的成本。

    微調模型在這些規模中的任何一個每月只花費 $45-95。計算結果一目了然。

    在 5,000 個用戶——在峭壁成為危機之前——就弄清楚這一點的公司建立了持久的利潤率優勢,隨著它們的成長而複利增長。在 50,000 個用戶時才弄清楚的公司已經花費了數十萬美元不必要的費用。

    為您的產品計算數字。峭壁比您想象的更近。

    延伸閱讀

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading