Back to blog
    行動裝置 AI API 定價:每位使用者的真實成本
    cost optimizationAPI pricingmobile AIunit economicssegment:mobile-builder

    行動裝置 AI API 定價:每位使用者的真實成本

    如何計算每位行動應用程式使用者的 AI 真實成本。供應商比較、隱藏的成本倍增因素,以及決定你的 AI 功能是否可持續的單位經濟學。

    EErtas Team·

    你的 AI 功能每次請求花費 $0.003。聽起來微不足道。但每位使用者每天發送 3-5 次請求。你有 10,000 MAU。月帳單是 $2,700-$4,500。如果你的應用程式收費 $4.99/月,AI 剛剛吃掉了毛收入的 5-9%。

    每位使用者的成本才是真正重要的數字。不是每個 token 的成本,不是每次請求的成本。每月每位使用者的成本決定了你的 AI 功能在規模化時是否可持續。

    計算每位使用者的成本

    公式如下:

    每月每位使用者成本 = (每次請求的 token 數) * (每位使用者每天的請求數) * 30 * (每個 token 的價格)

    但這個公式只有在你考慮到所有 token 來源時才準確。大多數開發者會漏算其中三個。

    每次請求的 Token 來源

    使用者輸入: 使用者實際發送的文字。行動裝置上通常為 50-300 個 token(短訊息、搜尋查詢、簡短提示)。

    系統提示詞: 隨每次請求發送。通常 800-1,500 個 token。這是你的應用程式對模型的指令:角色設定、格式規則、防護機制、應用程式的上下文資訊。

    對話歷史: 對於聊天類功能,所有先前的訊息都會隨每次請求重新發送。5 輪對話意味著第 5 輪包含所有前 4 輪的交流內容。

    RAG 上下文: 如果你注入檢索到的文件或產品知識,每次請求增加 500-3,000 個 token。

    實際的每次請求 Token 數量

    組成部分Token 數每次請求都發送?
    系統提示詞1,200
    使用者輸入200
    對話歷史(平均)1,500是(聊天功能)
    RAG 上下文1,000視情況而定
    模型輸出400
    總計(聊天 + RAG)4,300
    總計(單輪對話)1,800

    天真的估算「每次請求 1,000 token」低估了 2-4 倍。

    供應商比較:每月每位使用者成本

    使用實際 token 數量,每位使用者每天 3 次請求,每月 30 天。

    單輪功能(無聊天歷史)

    每次請求 1,800 輸入 + 400 輸出 token。每位使用者每月 90 次請求。

    供應商/模型輸入成本輸出成本總計/使用者/月
    Gemini 2.0 Flash$0.016$0.014$0.030
    GPT-4o-mini$0.024$0.022$0.046
    GPT-4.1-mini$0.065$0.058$0.123
    Claude 3.5 Haiku$0.130$0.144$0.274
    GPT-4o$0.405$0.360$0.765
    Claude 3.5 Sonnet$0.486$0.540$1.026

    聊天功能(含對話歷史)

    每次請求 4,300 輸入 + 400 輸出 token。每位使用者每月 90 次請求。

    供應商/模型輸入成本輸出成本總計/使用者/月
    Gemini 2.0 Flash$0.039$0.014$0.053
    GPT-4o-mini$0.058$0.022$0.080
    GPT-4.1-mini$0.155$0.058$0.213
    Claude 3.5 Haiku$0.310$0.144$0.454
    GPT-4o$0.968$0.360$1.328
    Claude 3.5 Sonnet$1.161$0.540$1.701

    規模化後的意義

    MAUGemini FlashGPT-4o-miniClaude HaikuGPT-4o
    1,000$53$80$454$1,328
    10,000$530$800$4,540$13,280
    50,000$2,650$4,000$22,700$66,400
    100,000$5,300$8,000$45,400$132,800

    可持續性門檻

    如果你的應用程式每月向每位使用者收費 $4.99,AI 消耗了多少百分比的收入?

    模型成本/使用者佔 $4.99 收入的 %可持續嗎?
    Gemini Flash(聊天)$0.0531.1%
    GPT-4o-mini(聊天)$0.0801.6%
    GPT-4.1-mini(聊天)$0.2134.3%勉強
    Claude Haiku(聊天)$0.4549.1%有風險
    GPT-4o(聊天)$1.32826.6%
    Claude Sonnet(聊天)$1.70134.1%

    在收入的 1-2% 時,AI 成本是可持續的。在 5-10% 時,它們與其他成本中心競爭。超過 10%,就會威脅到利潤率。

    但這些數字假設每位使用者每天 3 次請求。重度使用者每天發送 10-20 次請求,成本高出 3-7 倍。如果 10% 的使用者是重度使用者,他們可能佔你 AI 支出的 30-50%。

    隱藏的成本倍增因素

    重試

    在規模化時,2-5% 的 API 呼叫會失敗(速率限制、逾時、伺服器錯誤)。每次重試都會重新發送完整的負載。在總 token 支出上預算額外 3-5%。

    提示詞工程開銷

    隨著你持續迭代系統提示詞,它往往會越來越長。從 500 個 token 開始,最終變成 1,500 個。每一條新增的指令、防護機制或範例都會乘以每次請求、每位使用者、每一天。

    功能擴展

    一個 AI 功能變成三個。聊天、摘要和智慧建議各自有獨立的 API 呼叫。每位使用者每天的總請求數從 3 增長到 10 以上。

    免費方案 / 免費增值模式

    如果你的應用程式有包含 AI 功能的免費方案,那些使用者產生成本但零收入。一個 90% 使用者免費的免費增值模式意味著你的付費使用者必須負擔 10 倍自身的 AI 成本。

    損益平衡點:雲端 vs 裝置端

    裝置端推理具有固定成本結構:一次性微調費用($5-50)加上 CDN 分發(每 GB 模型下載約 $0.08)。每次推理成本為 $0。

    損益平衡很簡單:當你的月度雲端 API 帳單超過一次性微調成本時,裝置端就變得更便宜。

    情境月度雲端成本一次性微調費用損益平衡
    500 MAU, GPT-4o-mini$40$10-30第 1 個月
    1K MAU, Gemini Flash$53$10-30第 1 個月
    5K MAU, GPT-4o-mini$400$10-30第 1 個月

    在任何具有一定規模的使用者數量下,數學都偏向裝置端。問題不是「是否」,而是你的成長軌跡中「何時」該做轉換。

    像 Ertas 這樣的平台讓轉換變得可行:上傳你的訓練資料(可以從現有 API 日誌中擷取)、使用 LoRA 在雲端 GPU 上微調,然後匯出可用於行動部署的 GGUF 模型。整個流程只需數小時,而非數週。

    應該追蹤什麼

    從第一天起,就在你的分析系統中追蹤這些數字:

    1. 每月每位使用者成本(AI 總支出 / MAU)
    2. 每位付費使用者成本(如果是免費增值模式,只計算付費使用者)
    3. 每位使用者每天的請求數(識別重度使用者)
    4. 每次請求的 Token 數(監控系統提示詞的膨脹)
    5. AI 成本佔每位使用者收入的百分比

    設定警報。當每位使用者成本超過 $0.10/月時,開始規劃裝置端遷移。當超過 $0.50 時,立即執行。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading