按 Token 計費 AI 定價的隱藏成本

按 token 計費的 AI 定價通常比初始估算貴 3-5 倍，一旦您考慮到系統提示詞、RAG 上下文、重試和對話歷史——一個每天處理 10 萬次查詢的團隊，雲端 API 每月可能花費 $10,000-15,000，而分攤硬體成本的本地推論只需 $200-500。根據 McKinsey 的 AI 現狀報告，40% 的組織報告 AI 成本超出了初始預測。與此同時，a16z 對生成式 AI 經濟學的分析發現，推論成本佔大多數公司 AI 部署總支出的 60-80%。

這不是假設的場景。這是創始人在建構 AI 驅動產品時面臨的最常見的驚喜。讓我們分析為何按 token 計費的定價出奇地昂貴、如何計算您的真實成本，以及替代方案是什麼樣子。

定價頁面沒有顯示的數學

雲端 AI API 通常收費在每百萬 token $0.15 到 $15 之間，取決於模型。讓我們使用一個中等範例：每百萬輸入 token $1，每百萬輸出 token $3。

一個簡單的客戶支援機器人

假設：

每天 10,000 個客戶查詢
每個查詢平均 200 個輸入 token（用戶訊息 + 系統提示詞 + 上下文）
每個回應平均 300 個輸出 token
每月 30 天

每月 token 使用量：

輸入：10,000 × 200 × 30 = 6,000 萬 token
輸出：10,000 × 300 × 30 = 9,000 萬 token

每月成本：

輸入：60M × $1/1M = $60
輸出：90M × $3/1M = $270
總計：$330/月

這看起來是可以管理的。但這是最順利的情況。

實際發生的事

現實中，成本通過定價頁面不突出顯示的幾個機制相乘：

系統提示詞每次請求都計費。 每次查詢都發送一個 500 token 的系統提示詞，意味著每月額外 500 × 10,000 × 30 = 1.5 億個輸入 token。這是 $150 的隱藏開銷。

RAG 上下文使輸入 token 膨脹。 如果您每次查詢檢索 3 個平均 400 token 的文件作為上下文，那麼每次查詢額外 1,200 個輸入 token——每月 3.6 億個 token，增加 $360。

重試和備援。 網路錯誤、速率限制和品質問題導致重試。即使是 5% 的重試率也會為您的帳單增加 5%。

對話歷史。 多輪對話在每次請求中包含先前的訊息。一個 5 輪的對話意味著第五條訊息包含了所有四個之前的交流。隨著對話長度的增加，token 使用量呈二次方增長。

修訂後的每月成本：

基礎：$330
系統提示詞：$150
RAG 上下文：$360
重試（5%）：$42
對話歷史：$200 以上（因情況而異）
現實總計：$1,000–1,500/月

這是天真估算的 3–5 倍。而且這是對一個中等大小的支援機器人——而非核心產品功能。

在大規模時，情況變得更糟

每日查詢數	天真估算	現實成本	年度成本
1,000	$33/月	$100–150/月	$1,200–1,800
10,000	$330/月	$1,000–1,500/月	$12,000–18,000
100,000	$3,300/月	$10,000–15,000/月	$120,000–180,000
1,000,000	$33,000/月	$100,000–150,000/月	$120 萬–$180 萬

五個隱藏成本

1. 供應商鎖定

一旦您的應用程式圍繞特定 API 的能力和回應格式建構，切換供應商就是一項重大的工程工作。供應商了解這一點。這就是為什麼初始定價很積極，而一旦您承諾後，價格上漲很常見。

2. 速率限制和節流

每個雲端 AI API 都有速率限制。當您的應用程式在高峰使用時觸及它們，請求要麼排隊（增加延遲）要麼失敗（降低用戶體驗）。升級到更高的速率限制意味著需要更高每 token 價格的企業合約。

3. 模型棄用

雲端供應商定期棄用模型版本。當您的應用程式依賴的模型被下架時，您被迫遷移到較新版本，其行為可能不同。每次遷移都需要測試、提示詞調整，以及潛在的重大更改。

4. 不可預測的成本

按 token 計費意味著您的 AI 成本以難以預測的方式隨使用量增長。一個病毒式功能、爬取您介面的機器人，或提示詞注入攻擊都可能急劇提高成本。沒有自然的上限。

5. 資料暴露

每次 API 呼叫都將您的資料發送到第三方伺服器。即使有資料處理協議，您也在信任另一個組織持有您用戶的資料。對於受監管的行業，這創造了本身有成本的合規開銷。

替代方案：微調本地模型

在您自己的硬體上運行的微調模型完全翻轉了成本模型：

只有固定成本。 硬體是一次性購買（或固定月租）。無論您處理 1,000 還是 100 萬次查詢，成本都不會改變。

沒有按 token 計費。 初始投資後推論是免費的。

沒有速率限制。 您的吞吐量只受硬體限制。

沒有供應商依賴。 您擁有模型文件。隨時切換推論工具。

成本比較

對於每天處理 10 萬次查詢的團隊：

方法	每月成本	年度成本
雲端 API（現實情況）	$10,000–15,000	$120,000–180,000
專用 GPU 伺服器（租用）	$500–2,000	$6,000–24,000
本地硬體（分攤）	$200–500	$2,400–6,000
Apple Mac Studio（分攤）	$100–200	$1,200–2,400

本地推論與雲端 API 的損益平衡點通常是在中等流量下的 2–4 個月。

但小型模型能匹敵 API 品質嗎？

這是關鍵問題，答案越來越是肯定的——當模型針對您的特定任務微調時。

通用的 700 億參數雲端模型需要處理從詩歌到物理的一切。在您的資料上微調的 70 億參數模型只需要處理您的領域。在狹窄的任務上，微調的 7B 模型常規地匹配或超越經過提示詞工程的 70B 模型：

分類準確率： 微調的 7B 模型在特定領域的分類上達到 90–95% 的準確率，媲美 GPT-4 類別的模型。
提取任務： 微調的小型模型通常優於大型提示詞模型，因為它們學習了您的確切提取模式。
一致的格式化： 微調模型更可靠地產生結構化輸出，因為格式已內建到訓練中。

取捨是通用性。微調的 7B 模型是專家，而非通才。對於廣泛的、開放式的任務，較大的雲端模型仍然有優勢。但大多數生產 AI 應用程式是狹窄且定義明確的——正是微調所擅長的。

進行切換

從雲端 API 過渡到本地微調模型不必是全有或全無：

識別您最高流量的使用案例。 這是成本節省最大的地方。
從您現有的 API 輸入和輸出準備訓練資料——您很可能在日誌中已經有數千個範例。
使用 LoRA 在您的資料上微調 7B 模型。
在您的測試集上與雲端 API 並排評估。
如果品質達到您的閾值，在本地部署。
保留雲端 API 作為備援，用於微調模型難以處理的邊緣情況。

這種混合方法在保持品質安全網的同時，捕獲了 80–90% 的成本節省。

Ertas 如何幫助

Ertas Studio 提供雲端 API 和本地模型之間的橋樑。在受管理的雲端 GPU 上微調（無需設置訓練硬體），然後匯出為 GGUF 進行本地部署（推論沒有持續的按 token 費用）。

結果：訓練的雲端便利性，推論的本地經濟性。

早鳥定價永久鎖定在 $14.50/月——標準價格將在上市時增至 $34.50/月。加入優先預約 →

常見問題

GPT-4 每月實際花費多少？

這完全取決於您的流量。以 OpenAI 目前 GPT-4o 每百萬輸入 token $2.50、每百萬輸出 token $10 的定價，每天處理 10,000 次查詢的團隊（帶有典型的系統提示詞、RAG 上下文和對話歷史）預計每月花費 $1,000-1,500——而非天真的 token 計算所暗示的 $330。根據 Andreessen Horowitz，推論成本佔 AI 部署支出的大部分，大多數團隊低估他們的實際使用量 3-5 倍。

微調比 API 呼叫便宜嗎？

在中到高流量時，是的。微調的前期成本（訓練計算、資料準備時間）通常是 $50-500，取決於模型大小和資料集。但一旦訓練完成，本地微調模型的邊際推論成本接近零。對於每月處理 10 萬次以上查詢的團隊，與雲端 API 相比的損益平衡點通常是 2-4 個月。之後，您每月節省 $500-10,000 以上，取決於您的流量。

本地與雲端 AI 的損益平衡點是什麼？

對於大多數團隊，本地推論在中等流量（每天 1 萬次以上查詢）下的 2-4 個月內達到損益平衡。一台運行微調 7B 模型的 Mac Studio M2 Ultra（$4,000-6,000 一次性成本）可以處理在雲端 API 上每月花費 $1,000-1,500 的相同工作負載。以這個速率，硬體在 3-5 個月內回本，之後每個月基本上是免費的推論。即使是租用的 GPU 伺服器（$500-2,000/月）在規模化時也比按 token 計費的 API 定價提供 5-10 倍的成本節省。

為何 AI API 成本增長速度快於使用量？

主要原因是基於對話的應用程式的二次方增長。多輪對話在每次請求中包含所有之前的訊息，所以 token 使用量比對話長度增長更快。一個 5 輪對話大約發送了單輪交流 15 倍的 token。系統提示詞也在每次請求上計費（每次呼叫增加 500-2,000 token 的開銷），而 RAG 上下文進一步使每次查詢的輸入 token 膨脹 1,000-5,000 個。