Back to blog
    按 Token 計費 AI 定價的隱藏成本
    pricingcost-analysislocal-inferencecloud-aieconomics

    按 Token 計費 AI 定價的隱藏成本

    按 token 計費的定價乍看之下很便宜,但會快速累積。以下是如何計算大規模雲端 AI API 的真實成本——以及為何微調本地模型是經濟實惠的替代方案。

    EEdward Yang··Updated

    按 token 計費的 AI 定價通常比初始估算貴 3-5 倍,一旦您考慮到系統提示詞、RAG 上下文、重試和對話歷史——一個每天處理 10 萬次查詢的團隊,雲端 API 每月可能花費 $10,000-15,000,而分攤硬體成本的本地推論只需 $200-500。根據 McKinsey 的 AI 現狀報告,40% 的組織報告 AI 成本超出了初始預測。與此同時,a16z 對生成式 AI 經濟學的分析發現,推論成本佔大多數公司 AI 部署總支出的 60-80%。

    這不是假設的場景。這是創始人在建構 AI 驅動產品時面臨的最常見的驚喜。讓我們分析為何按 token 計費的定價出奇地昂貴、如何計算您的真實成本,以及替代方案是什麼樣子。

    定價頁面沒有顯示的數學

    雲端 AI API 通常收費在每百萬 token $0.15 到 $15 之間,取決於模型。讓我們使用一個中等範例:每百萬輸入 token $1,每百萬輸出 token $3。

    一個簡單的客戶支援機器人

    假設:

    • 每天 10,000 個客戶查詢
    • 每個查詢平均 200 個輸入 token(用戶訊息 + 系統提示詞 + 上下文)
    • 每個回應平均 300 個輸出 token
    • 每月 30 天

    每月 token 使用量:

    • 輸入:10,000 × 200 × 30 = 6,000 萬 token
    • 輸出:10,000 × 300 × 30 = 9,000 萬 token

    每月成本:

    • 輸入:60M × $1/1M = $60
    • 輸出:90M × $3/1M = $270
    • 總計:$330/月

    這看起來是可以管理的。但這是最順利的情況。

    實際發生的事

    現實中,成本通過定價頁面不突出顯示的幾個機制相乘:

    系統提示詞每次請求都計費。 每次查詢都發送一個 500 token 的系統提示詞,意味著每月額外 500 × 10,000 × 30 = 1.5 億個輸入 token。這是 $150 的隱藏開銷。

    RAG 上下文使輸入 token 膨脹。 如果您每次查詢檢索 3 個平均 400 token 的文件作為上下文,那麼每次查詢額外 1,200 個輸入 token——每月 3.6 億個 token,增加 $360。

    重試和備援。 網路錯誤、速率限制和品質問題導致重試。即使是 5% 的重試率也會為您的帳單增加 5%。

    對話歷史。 多輪對話在每次請求中包含先前的訊息。一個 5 輪的對話意味著第五條訊息包含了所有四個之前的交流。隨著對話長度的增加,token 使用量呈二次方增長。

    修訂後的每月成本:

    • 基礎:$330
    • 系統提示詞:$150
    • RAG 上下文:$360
    • 重試(5%):$42
    • 對話歷史:$200 以上(因情況而異)
    • 現實總計:$1,000–1,500/月

    這是天真估算的 3–5 倍。而且這是對一個中等大小的支援機器人——而非核心產品功能。

    在大規模時,情況變得更糟

    每日查詢數天真估算現實成本年度成本
    1,000$33/月$100–150/月$1,200–1,800
    10,000$330/月$1,000–1,500/月$12,000–18,000
    100,000$3,300/月$10,000–15,000/月$120,000–180,000
    1,000,000$33,000/月$100,000–150,000/月$120 萬–$180 萬

    五個隱藏成本

    1. 供應商鎖定

    一旦您的應用程式圍繞特定 API 的能力和回應格式建構,切換供應商就是一項重大的工程工作。供應商了解這一點。這就是為什麼初始定價很積極,而一旦您承諾後,價格上漲很常見。

    2. 速率限制和節流

    每個雲端 AI API 都有速率限制。當您的應用程式在高峰使用時觸及它們,請求要麼排隊(增加延遲)要麼失敗(降低用戶體驗)。升級到更高的速率限制意味著需要更高每 token 價格的企業合約。

    3. 模型棄用

    雲端供應商定期棄用模型版本。當您的應用程式依賴的模型被下架時,您被迫遷移到較新版本,其行為可能不同。每次遷移都需要測試、提示詞調整,以及潛在的重大更改。

    4. 不可預測的成本

    按 token 計費意味著您的 AI 成本以難以預測的方式隨使用量增長。一個病毒式功能、爬取您介面的機器人,或提示詞注入攻擊都可能急劇提高成本。沒有自然的上限。

    5. 資料暴露

    每次 API 呼叫都將您的資料發送到第三方伺服器。即使有資料處理協議,您也在信任另一個組織持有您用戶的資料。對於受監管的行業,這創造了本身有成本的合規開銷。

    替代方案:微調本地模型

    在您自己的硬體上運行的微調模型完全翻轉了成本模型:

    只有固定成本。 硬體是一次性購買(或固定月租)。無論您處理 1,000 還是 100 萬次查詢,成本都不會改變。

    沒有按 token 計費。 初始投資後推論是免費的。

    沒有速率限制。 您的吞吐量只受硬體限制。

    沒有供應商依賴。 您擁有模型文件。隨時切換推論工具。

    成本比較

    對於每天處理 10 萬次查詢的團隊:

    方法每月成本年度成本
    雲端 API(現實情況)$10,000–15,000$120,000–180,000
    專用 GPU 伺服器(租用)$500–2,000$6,000–24,000
    本地硬體(分攤)$200–500$2,400–6,000
    Apple Mac Studio(分攤)$100–200$1,200–2,400

    本地推論與雲端 API 的損益平衡點通常是在中等流量下的 2–4 個月

    但小型模型能匹敵 API 品質嗎?

    這是關鍵問題,答案越來越是肯定的——當模型針對您的特定任務微調時。

    通用的 700 億參數雲端模型需要處理從詩歌到物理的一切。在您的資料上微調的 70 億參數模型只需要處理您的領域。在狹窄的任務上,微調的 7B 模型常規地匹配或超越經過提示詞工程的 70B 模型:

    • 分類準確率: 微調的 7B 模型在特定領域的分類上達到 90–95% 的準確率,媲美 GPT-4 類別的模型。
    • 提取任務: 微調的小型模型通常優於大型提示詞模型,因為它們學習了您的確切提取模式。
    • 一致的格式化: 微調模型更可靠地產生結構化輸出,因為格式已內建到訓練中。

    取捨是通用性。微調的 7B 模型是專家,而非通才。對於廣泛的、開放式的任務,較大的雲端模型仍然有優勢。但大多數生產 AI 應用程式是狹窄且定義明確的——正是微調所擅長的。

    進行切換

    從雲端 API 過渡到本地微調模型不必是全有或全無:

    1. 識別您最高流量的使用案例。 這是成本節省最大的地方。
    2. 從您現有的 API 輸入和輸出準備訓練資料——您很可能在日誌中已經有數千個範例。
    3. 使用 LoRA 在您的資料上微調 7B 模型。
    4. 在您的測試集上與雲端 API 並排評估。
    5. 如果品質達到您的閾值,在本地部署。
    6. 保留雲端 API 作為備援,用於微調模型難以處理的邊緣情況。

    這種混合方法在保持品質安全網的同時,捕獲了 80–90% 的成本節省。

    Ertas 如何幫助

    Ertas Studio 提供雲端 API 和本地模型之間的橋樑。在受管理的雲端 GPU 上微調(無需設置訓練硬體),然後匯出為 GGUF 進行本地部署(推論沒有持續的按 token 費用)。

    結果:訓練的雲端便利性,推論的本地經濟性。

    早鳥定價永久鎖定在 $14.50/月——標準價格將在上市時增至 $34.50/月。加入優先預約 →

    常見問題

    GPT-4 每月實際花費多少?

    這完全取決於您的流量。以 OpenAI 目前 GPT-4o 每百萬輸入 token $2.50、每百萬輸出 token $10 的定價,每天處理 10,000 次查詢的團隊(帶有典型的系統提示詞、RAG 上下文和對話歷史)預計每月花費 $1,000-1,500——而非天真的 token 計算所暗示的 $330。根據 Andreessen Horowitz,推論成本佔 AI 部署支出的大部分,大多數團隊低估他們的實際使用量 3-5 倍。

    微調比 API 呼叫便宜嗎?

    在中到高流量時,是的。微調的前期成本(訓練計算、資料準備時間)通常是 $50-500,取決於模型大小和資料集。但一旦訓練完成,本地微調模型的邊際推論成本接近零。對於每月處理 10 萬次以上查詢的團隊,與雲端 API 相比的損益平衡點通常是 2-4 個月。之後,您每月節省 $500-10,000 以上,取決於您的流量。

    本地與雲端 AI 的損益平衡點是什麼?

    對於大多數團隊,本地推論在中等流量(每天 1 萬次以上查詢)下的 2-4 個月內達到損益平衡。一台運行微調 7B 模型的 Mac Studio M2 Ultra($4,000-6,000 一次性成本)可以處理在雲端 API 上每月花費 $1,000-1,500 的相同工作負載。以這個速率,硬體在 3-5 個月內回本,之後每個月基本上是免費的推論。即使是租用的 GPU 伺服器($500-2,000/月)在規模化時也比按 token 計費的 API 定價提供 5-10 倍的成本節省。

    為何 AI API 成本增長速度快於使用量?

    主要原因是基於對話的應用程式的二次方增長。多輪對話在每次請求中包含所有之前的訊息,所以 token 使用量比對話長度增長更快。一個 5 輪對話大約發送了單輪交流 15 倍的 token。系統提示詞也在每次請求上計費(每次呼叫增加 500-2,000 token 的開銷),而 RAG 上下文進一步使每次查詢的輸入 token 膨脹 1,000-5,000 個。

    延伸閱讀

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading