
按 Token 計費 AI 定價的隱藏成本
按 token 計費的定價乍看之下很便宜,但會快速累積。以下是如何計算大規模雲端 AI API 的真實成本——以及為何微調本地模型是經濟實惠的替代方案。
按 token 計費的 AI 定價通常比初始估算貴 3-5 倍,一旦您考慮到系統提示詞、RAG 上下文、重試和對話歷史——一個每天處理 10 萬次查詢的團隊,雲端 API 每月可能花費 $10,000-15,000,而分攤硬體成本的本地推論只需 $200-500。根據 McKinsey 的 AI 現狀報告,40% 的組織報告 AI 成本超出了初始 預測。與此同時,a16z 對生成式 AI 經濟學的分析發現,推論成本佔大多數公司 AI 部署總支出的 60-80%。
這不是假設的場景。這是創始人在建構 AI 驅動產品時面臨的最常見的驚喜。讓我們分析為何按 token 計費的定價出奇地昂貴、如何計算您的真實成本,以及替代方案是什麼樣子。
定價頁面沒有顯示的數學
雲端 AI API 通常收費在每百萬 token $0.15 到 $15 之間,取決於模型。讓我們使用一個中等範例:每百萬輸入 token $1,每百萬輸出 token $3。
一個簡單的客戶支援機器人
假設:
- 每天 10,000 個客戶查詢
- 每個查詢平均 200 個輸入 token(用戶訊息 + 系統提示詞 + 上下文)
- 每個回應平均 300 個輸出 token
- 每月 30 天
每月 token 使用量:
- 輸入:10,000 × 200 × 30 = 6,000 萬 token
- 輸出:10,000 × 300 × 30 = 9,000 萬 token
每月成本:
- 輸入:60M × $1/1M = $60
- 輸出:90M × $3/1M = $270
- 總計:$330/月
這看起來是可以管理的。但這是最順利的情況。
實際發生的事
現實中,成本通過定價頁面不突出顯示的幾個機制相乘:
系統提示詞每次請求都計費。 每次查詢都發送一個 500 token 的系統提示詞,意味著每月額外 500 × 10,000 × 30 = 1.5 億個輸入 token。這是 $150 的隱藏開銷。
RAG 上下文使輸入 token 膨脹。 如果您每次查詢檢索 3 個平均 400 token 的文件作為上下文,那麼每次查詢額外 1,200 個輸入 token——每月 3.6 億個 token,增加 $360。
重試和備援。 網路錯誤、速率限制和品質問題導致重試。即使是 5% 的重試率也會為您的帳單增加 5%。
對話歷史。 多輪對話在每次請求中包含先前的訊息。一個 5 輪的對話意味著第五條訊息包含了所有四個之前的交流。隨著對話長度的增加,token 使用量呈二次方增長。
修訂後的每月成本:
- 基礎:$330
- 系統提示詞:$150
- RAG 上下文:$360
- 重試(5%):$42
- 對話歷史:$200 以上(因情況而異)
- 現實總計:$1,000–1,500/月
這是天真估算的 3–5 倍。而且這是對一個中等大小的支援機器人——而非核心產品功能。
在大規模時,情況變得更糟
| 每日查詢數 | 天真估算 | 現實成本 | 年度成本 |
|---|---|---|---|
| 1,000 | $33/月 | $100–150/月 | $1,200–1,800 |
| 10,000 | $330/月 | $1,000–1,500/月 | $12,000–18,000 |
| 100,000 | $3,300/月 | $10,000–15,000/月 | $120,000–180,000 |
| 1,000,000 | $33,000/月 | $100,000–150,000/月 | $120 萬–$180 萬 |
五個隱藏成本
1. 供應商 鎖定
一旦您的應用程式圍繞特定 API 的能力和回應格式建構,切換供應商就是一項重大的工程工作。供應商了解這一點。這就是為什麼初始定價很積極,而一旦您承諾後,價格上漲很常見。
2. 速率限制和節流
每個雲端 AI API 都有速率限制。當您的應用程式在高峰使用時觸及它們,請求要麼排隊(增加延遲)要麼失敗(降低用戶體驗)。升級到更高的速率限制意味著需要更高每 token 價格的企業合約。
3. 模型棄用
雲端供應商定期棄用模型版本。當您的應用程式依賴的模型被下架時,您被迫遷移到較新版本,其行為可能不同。每次遷移都需要測試、提示詞調整,以及潛在的重大更改。
4. 不可預測的成本
按 token 計費意味著您的 AI 成本以難以預測的方式隨使用量增長。一個病毒式功能、爬取您介面的機器人,或提示詞 注入攻擊都可能急劇提高成本。沒有自然的上限。
5. 資料暴露
每次 API 呼叫都將您的資料發送到第三方伺服器。即使有資料處理協議,您也在信任另一個組織持有您用戶的資料。對於受監管的行業,這創造了本身有成本的合規開銷。
替代方案:微調本地模型
在您自己的硬體上運行的微調模型完全翻轉了成本模型:
只有固定成本。 硬體是一次性購買(或固定月租)。無論您處理 1,000 還是 100 萬次查詢,成本都不會改變。
沒有按 token 計費。 初始投資後推論是免費的。
沒有速率限制。 您的吞吐量只受硬體限制。
沒有供應商依賴。 您擁有模型文件。隨時切換推論工具。
成本比較
對於每天處理 10 萬次查詢的團隊:
| 方法 | 每月成本 | 年度成本 |
|---|---|---|
| 雲端 API(現實情況) | $10,000–15,000 | $120,000–180,000 |
| 專用 GPU 伺服器(租用) | $500–2,000 | $6,000–24,000 |
| 本地硬體(分攤) | $200–500 | $2,400–6,000 |
| Apple Mac Studio(分攤) | $100–200 | $1,200–2,400 |
本地推論與雲端 API 的損益平衡點通常是在中等流量下的 2–4 個月。
但小型模型能匹敵 API 品質嗎?
這是關鍵問題,答案越來越是肯定的——當模型針對您的特定任務微調時。
通用的 700 億參數雲端模型需要處理從詩歌到物理的一切。在您的資料上微調的 70 億參數模型只需要處理您的領域。在狹窄的任務上,微調的 7B 模型常規地匹配或超越經過提示詞工程的 70B 模型:
- 分類準確率: 微調的 7B 模型在特定領域的分類上達到 90–95% 的準確率,媲美 GPT-4 類別的模型。
- 提取任務: 微調的小型模型通常優於大型提示詞模型,因為它們學習了您的確切提取模式。
- 一致的格式化: 微調模型更可靠地產生結構化輸出,因為格式已內建到訓練中。
取捨是通用性。微調的 7B 模型是專家,而非通才。對於廣泛的、開放式的任務,較大的雲端模型仍然有優勢。但大多數生產 AI 應用程式是狹窄且定義明確的——正是微調所擅長的。
進行切換
從雲端 API 過渡到本地微調模型不必是全有或全無:
- 識別您最高流量的使用案例。 這是成本節省最大的地方。
- 從您現有的 API 輸入和輸出準備訓練資料——您很可能在日誌中已經有數千個範例。
- 使用 LoRA 在您的資料上微調 7B 模型。
- 在您的測試集上與雲端 API 並排評估。
- 如果品質達到您的閾值,在本地部署。
- 保留雲端 API 作為備援,用於微調模型難以處理的邊緣情況。
這種混合方法在保持品質安全網的同時,捕獲了 80–90% 的成本節省。
Ertas 如何幫助
Ertas Studio 提供雲端 API 和本地模型之間的橋樑。在受管理的雲端 GPU 上微調(無需設置訓練硬體),然後匯出為 GGUF 進行本地部署(推論沒有持續的按 token 費用)。
結果:訓練的雲端便利性,推論的本地經濟性。
早鳥定價永久鎖定在 $14.50/月——標準價格將在上市時增至 $34.50/月。加入優先預約 →
常見問題
GPT-4 每月實際花費多少?
這完全取決於您的流量。以 OpenAI 目前 GPT-4o 每百萬輸入 token $2.50、每百萬輸出 token $10 的定價,每天處理 10,000 次查詢的團隊(帶有典型的系統提示詞、RAG 上下文和對話歷史)預計每月花費 $1,000-1,500——而非天真的 token 計算所暗示的 $330。根據 Andreessen Horowitz,推論成本佔 AI 部署支出的大部分,大多數團隊低估他們的實際使用量 3-5 倍。
微調比 API 呼叫便宜嗎?
在中到高流量時,是的。微調的前期成本(訓練計算、資料準備時間)通常是 $50-500,取決於模型大小和資料集。但一旦訓練完成,本地微調模型的邊際推論成本接近零。對於每月處理 10 萬次以上查詢的團隊,與雲端 API 相比的損益平衡點通常是 2-4 個月。之後,您每月節省 $500-10,000 以上,取決於您的流量。
本地與雲端 AI 的損益平衡點是什麼?
對於大多數團隊,本地推論在中等流量(每天 1 萬次以上查詢)下的 2-4 個月內達到損益平衡。一台運行微調 7B 模型的 Mac Studio M2 Ultra($4,000-6,000 一次性成本)可以處理在雲端 API 上每月花費 $1,000-1,500 的相同工作負載。以這個速率,硬體在 3-5 個月內回本,之後每個月基本上是免費的推論。即使是租用的 GPU 伺服器($500-2,000/月)在規模化時也比按 token 計費的 API 定價提供 5-10 倍的成本節省。
為何 AI API 成本增長速度快於使用量?
主要原因是基於對話的應用程式的二次 方增長。多輪對話在每次請求中包含所有之前的訊息,所以 token 使用量比對話長度增長更快。一個 5 輪對話大約發送了單輪交流 15 倍的 token。系統提示詞也在每次請求上計費(每次呼叫增加 500-2,000 token 的開銷),而 RAG 上下文進一步使每次查詢的輸入 token 膨脹 1,000-5,000 個。
延伸閱讀
- OpenAI 6 個月棄用了 5 個模型——這對業務的代價是什麼 — 隱藏的棄用稅
- 建構 vs 租用:2026 年依賴 API 的 AI 的真實成本 — 帶損益平衡分析的完整成本比較
- 本地運行 AI 模型 — 硬體需求、工具和部署指南
- 如何微調 LLM:完整指南 — 逐步微調演練
- 微調 vs RAG:何時使用哪個 — 選擇正確的架構
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

The Cost of Not Retraining: How Stale Models Quietly Break Production
Models degrade silently. A support bot trained on old docs, a classifier missing new categories, a client model that feels 'generic' — stale models cost more than retraining ever will.

The SaaS AI Cost Cliff: Why Fine-Tuning Beats APIs at 10K+ Users
Total cost of ownership analysis for AI features from seed to Series B. Real math on the cost cliff, hidden multipliers, break-even points, and why investors care about AI margin.

The Real Cost of Self-Hosting AI Models: GPU Pricing Breakdown for 2026
A detailed breakdown of GPU pricing for self-hosted AI inference in 2026 — comparing cloud rental, on-premise purchase, and API pricing to find the true break-even point for agencies.