行動裝置 AI API 定價：每位使用者的真實成本

你的 AI 功能每次請求花費 $0.003。聽起來微不足道。但每位使用者每天發送 3-5 次請求。你有 10,000 MAU。月帳單是 $2,700-$4,500。如果你的應用程式收費 $4.99/月，AI 剛剛吃掉了毛收入的 5-9%。

每位使用者的成本才是真正重要的數字。不是每個 token 的成本，不是每次請求的成本。每月每位使用者的成本決定了你的 AI 功能在規模化時是否可持續。

計算每位使用者的成本

公式如下：

每月每位使用者成本 = (每次請求的 token 數) * (每位使用者每天的請求數) * 30 * (每個 token 的價格)

但這個公式只有在你考慮到所有 token 來源時才準確。大多數開發者會漏算其中三個。

每次請求的 Token 來源

使用者輸入： 使用者實際發送的文字。行動裝置上通常為 50-300 個 token（短訊息、搜尋查詢、簡短提示）。

系統提示詞： 隨每次請求發送。通常 800-1,500 個 token。這是你的應用程式對模型的指令：角色設定、格式規則、防護機制、應用程式的上下文資訊。

對話歷史： 對於聊天類功能，所有先前的訊息都會隨每次請求重新發送。5 輪對話意味著第 5 輪包含所有前 4 輪的交流內容。

RAG 上下文： 如果你注入檢索到的文件或產品知識，每次請求增加 500-3,000 個 token。

實際的每次請求 Token 數量

組成部分	Token 數	每次請求都發送？
系統提示詞	1,200	是
使用者輸入	200	是
對話歷史（平均）	1,500	是（聊天功能）
RAG 上下文	1,000	視情況而定
模型輸出	400	是
總計（聊天 + RAG）	4,300
總計（單輪對話）	1,800

天真的估算「每次請求 1,000 token」低估了 2-4 倍。

供應商比較：每月每位使用者成本

使用實際 token 數量，每位使用者每天 3 次請求，每月 30 天。

單輪功能（無聊天歷史）

每次請求 1,800 輸入 + 400 輸出 token。每位使用者每月 90 次請求。

供應商/模型	輸入成本	輸出成本	總計/使用者/月
Gemini 2.0 Flash	$0.016	$0.014	$0.030
GPT-4o-mini	$0.024	$0.022	$0.046
GPT-4.1-mini	$0.065	$0.058	$0.123
Claude 3.5 Haiku	$0.130	$0.144	$0.274
GPT-4o	$0.405	$0.360	$0.765
Claude 3.5 Sonnet	$0.486	$0.540	$1.026

聊天功能（含對話歷史）

每次請求 4,300 輸入 + 400 輸出 token。每位使用者每月 90 次請求。

供應商/模型	輸入成本	輸出成本	總計/使用者/月
Gemini 2.0 Flash	$0.039	$0.014	$0.053
GPT-4o-mini	$0.058	$0.022	$0.080
GPT-4.1-mini	$0.155	$0.058	$0.213
Claude 3.5 Haiku	$0.310	$0.144	$0.454
GPT-4o	$0.968	$0.360	$1.328
Claude 3.5 Sonnet	$1.161	$0.540	$1.701

規模化後的意義

MAU	Gemini Flash	GPT-4o-mini	Claude Haiku	GPT-4o
1,000	$53	$80	$454	$1,328
10,000	$530	$800	$4,540	$13,280
50,000	$2,650	$4,000	$22,700	$66,400
100,000	$5,300	$8,000	$45,400	$132,800

可持續性門檻

如果你的應用程式每月向每位使用者收費 $4.99，AI 消耗了多少百分比的收入？

模型	成本/使用者	佔 $4.99 收入的 %	可持續嗎？
Gemini Flash（聊天）	$0.053	1.1%	是
GPT-4o-mini（聊天）	$0.080	1.6%	是
GPT-4.1-mini（聊天）	$0.213	4.3%	勉強
Claude Haiku（聊天）	$0.454	9.1%	有風險
GPT-4o（聊天）	$1.328	26.6%	否
Claude Sonnet（聊天）	$1.701	34.1%	否

在收入的 1-2% 時，AI 成本是可持續的。在 5-10% 時，它們與其他成本中心競爭。超過 10%，就會威脅到利潤率。

但這些數字假設每位使用者每天 3 次請求。重度使用者每天發送 10-20 次請求，成本高出 3-7 倍。如果 10% 的使用者是重度使用者，他們可能佔你 AI 支出的 30-50%。

隱藏的成本倍增因素

重試

在規模化時，2-5% 的 API 呼叫會失敗（速率限制、逾時、伺服器錯誤）。每次重試都會重新發送完整的負載。在總 token 支出上預算額外 3-5%。

提示詞工程開銷

隨著你持續迭代系統提示詞，它往往會越來越長。從 500 個 token 開始，最終變成 1,500 個。每一條新增的指令、防護機制或範例都會乘以每次請求、每位使用者、每一天。

功能擴展

一個 AI 功能變成三個。聊天、摘要和智慧建議各自有獨立的 API 呼叫。每位使用者每天的總請求數從 3 增長到 10 以上。

免費方案 / 免費增值模式

如果你的應用程式有包含 AI 功能的免費方案，那些使用者產生成本但零收入。一個 90% 使用者免費的免費增值模式意味著你的付費使用者必須負擔 10 倍自身的 AI 成本。

損益平衡點：雲端 vs 裝置端

裝置端推理具有固定成本結構：一次性微調費用（$5-50）加上 CDN 分發（每 GB 模型下載約 $0.08）。每次推理成本為 $0。

損益平衡很簡單：當你的月度雲端 API 帳單超過一次性微調成本時，裝置端就變得更便宜。

情境	月度雲端成本	一次性微調費用	損益平衡
500 MAU, GPT-4o-mini	$40	$10-30	第 1 個月
1K MAU, Gemini Flash	$53	$10-30	第 1 個月
5K MAU, GPT-4o-mini	$400	$10-30	第 1 個月

在任何具有一定規模的使用者數量下，數學都偏向裝置端。問題不是「是否」，而是你的成長軌跡中「何時」該做轉換。

像 Ertas 這樣的平台讓轉換變得可行：上傳你的訓練資料（可以從現有 API 日誌中擷取）、使用 LoRA 在雲端 GPU 上微調，然後匯出可用於行動部署的 GGUF 模型。整個流程只需數小時，而非數週。

應該追蹤什麼

從第一天起，就在你的分析系統中追蹤這些數字：

每月每位使用者成本（AI 總支出 / MAU）
每位付費使用者成本（如果是免費增值模式，只計算付費使用者）
每位使用者每天的請求數（識別重度使用者）
每次請求的 Token 數（監控系統提示詞的膨脹）
AI 成本佔每位使用者收入的百分比

設定警報。當每位使用者成本超過 $0.10/月時，開始規劃裝置端遷移。當超過 $0.50 時，立即執行。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

行動裝置 AI API 定價：每位使用者的真實成本

計算每位使用者的成本

每次請求的 Token 來源

實際的每次請求 Token 數量

供應商比較：每月每位使用者成本

單輪功能（無聊天歷史）

聊天功能（含對話歷史）

規模化後的意義

可持續性門檻

隱藏的成本倍增因素

重試

提示詞工程開銷

功能擴展

免費方案 / 免費增值模式

損益平衡點：雲端 vs 裝置端

應該追蹤什麼

Ship AI that runs on your users' devices.

Ship AI that runs on your users' devices.

Keep reading

當你的應用程式有了使用者，AI API 帳單會暴漲 10 倍

裝置端 AI 單位經濟學：讓行動 AI 獲利的數學

行動應用的微調 vs 提示工程