移动端 AI API 定价: 每用户的真实成本

你的 AI 功能每次请求花费 $0.003。听起来微不足道。但每个用户每天发起 3-5 次请求。你有 10,000 MAU。月账单是 $2,700-$4,500。如果你的应用收费 $4.99/月, AI 刚刚吃掉了总收入的 5-9%。

每用户成本才是关键数字。不是每 token 成本,不是每请求成本。每用户每月的成本决定了你的 AI 功能能否在规模化时保持可持续。

计算每用户成本

公式:

每用户每月成本 = (每请求 token 数) * (每用户每天请求数) * 30 * (每 token 价格)

但这个公式只有在你计入所有 token 来源时才成立。大多数开发者会遗漏其中三个。

每次请求的 Token 来源

用户输入: 用户发送的实际文本。移动端通常 50-300 个 token(短消息、搜索查询、简短提示)。

系统提示词: 每次请求都会发送。通常 800-1,500 个 token。这是你的应用给模型的指令: 角色设定、格式规则、安全护栏、应用上下文。

对话历史: 对于聊天类功能,所有之前的消息都会随每次请求重新发送。5 轮对话意味着第 5 轮包含前 4 轮的全部交互内容。

RAG 上下文: 如果你注入了检索的文档或产品知识,每次请求额外增加 500-3,000 个 token。

每次请求的实际 Token 数量

组件	Token 数	每次请求都发送?
系统提示词	1,200	是
用户输入	200	是
对话历史(平均)	1,500	是(聊天功能)
RAG 上下文	1,000	视情况而定
模型输出	400	是
合计(聊天 + RAG)	4,300
合计(单轮)	1,800

"每请求 1,000 token" 的简单估算低估了 2-4 倍。

供应商对比: 每用户每月成本

使用实际 token 数量,每用户每天 3 次请求,每月 30 天。

单轮功能(无聊天历史)

1,800 输入 + 400 输出 token/请求。每用户每月 90 次请求。

供应商/模型	输入成本	输出成本	每用户/月总计
Gemini 2.0 Flash	$0.016	$0.014	$0.030
GPT-4o-mini	$0.024	$0.022	$0.046
GPT-4.1-mini	$0.065	$0.058	$0.123
Claude 3.5 Haiku	$0.130	$0.144	$0.274
GPT-4o	$0.405	$0.360	$0.765
Claude 3.5 Sonnet	$0.486	$0.540	$1.026

聊天功能(带对话历史)

4,300 输入 + 400 输出 token/请求。每用户每月 90 次请求。

供应商/模型	输入成本	输出成本	每用户/月总计
Gemini 2.0 Flash	$0.039	$0.014	$0.053
GPT-4o-mini	$0.058	$0.022	$0.080
GPT-4.1-mini	$0.155	$0.058	$0.213
Claude 3.5 Haiku	$0.310	$0.144	$0.454
GPT-4o	$0.968	$0.360	$1.328
Claude 3.5 Sonnet	$1.161	$0.540	$1.701

规模化意味着什么

MAU	Gemini Flash	GPT-4o-mini	Claude Haiku	GPT-4o
1,000	$53	$80	$454	$1,328
10,000	$530	$800	$4,540	$13,280
50,000	$2,650	$4,000	$22,700	$66,400
100,000	$5,300	$8,000	$45,400	$132,800

可持续性门槛

如果你的应用每月向每用户收费 $4.99, AI 消耗了多少百分比的收入?

模型	每用户成本	占 $4.99 收入的 %	可持续?
Gemini Flash(聊天)	$0.053	1.1%	是
GPT-4o-mini(聊天)	$0.080	1.6%	是
GPT-4.1-mini(聊天)	$0.213	4.3%	边缘
Claude Haiku(聊天)	$0.454	9.1%	有风险
GPT-4o(聊天)	$1.328	26.6%	否
Claude Sonnet(聊天)	$1.701	34.1%	否

当 AI 成本占收入的 1-2% 时,是可持续的。占 5-10% 时,就开始和其他成本中心争夺资源。超过 10%,利润率会受到威胁。

但这些数字假设每用户每天 3 次请求。重度用户每天 10-20 次请求,成本是普通用户的 3-7 倍。如果 10% 的用户是重度用户,他们可能占据你 30-50% 的 AI 支出。

隐藏的成本倍增因素

重试

在规模化运营中, 2-5% 的 API 调用会失败(速率限制、超时、服务器错误)。每次重试都会重新发送完整的请求负载。需要在总 token 支出上额外预算 3-5%。

提示词工程开销

随着你迭代系统提示词,它往往会膨胀。从 500 token 开始,最终变成 1,500。每一条新增的指令、安全护栏或示例都会乘以每次请求、每个用户、每一天。

功能扩展

一个 AI 功能变成三个。聊天、摘要和智能建议各自有独立的 API 调用。每用户每天的总请求数从 3 增长到 10+。

免费层 / 免费增值

如果你的应用有包含 AI 功能的免费层,这些用户产生成本却零收入。一个 90% 用户免费的免费增值模型意味着付费用户必须承担自身 AI 成本的 10 倍。

盈亏平衡点: 云端 vs 端侧

端侧推理有固定的成本结构: 一次性微调费用($5-50)加上 CDN 分发(每 GB 模型下载约 $0.08)。每次推理成本为 $0。

盈亏平衡很简单: 当你的月度云 API 账单超过一次性微调成本时,端侧就更便宜了。

场景	月度云端成本	一次性微调费用	盈亏平衡
500 MAU, GPT-4o-mini	$40	$10-30	第 1 个月
1K MAU, Gemini Flash	$53	$10-30	第 1 个月
5K MAU, GPT-4o-mini	$400	$10-30	第 1 个月

在任何达到一定规模的用户量下,数学都支持端侧方案。问题不是"是否"而是在你的增长轨迹中"何时"做出转换。

像 Ertas 这样的平台使转换变得切实可行: 上传你的训练数据(可以从现有 API 日志中提取),使用 LoRA 在云 GPU 上微调,导出为适合移动端部署的 GGUF 模型。整个流程只需数小时,而非数周。

应该追踪什么

从第一天起,在你的分析中追踪这些数字:

每用户每月成本(AI 总支出 / MAU)
每付费用户成本(如果是免费增值,只计算付费用户)
每用户每天请求数(识别重度用户)
每请求 token 数(关注系统提示词的膨胀)
AI 成本占每用户收入的百分比

设置警报。当每用户成本超过 $0.10/月时,开始规划端侧迁移。当超过 $0.50 时,执行迁移。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

移动端 AI API 定价: 每用户的真实成本

计算每用户成本

每次请求的 Token 来源

每次请求的实际 Token 数量

供应商对比: 每用户每月成本

单轮功能(无聊天历史)

聊天功能(带对话历史)

规模化意味着什么

可持续性门槛

隐藏的成本倍增因素

重试

提示词工程开销

功能扩展

免费层 / 免费增值

盈亏平衡点: 云端 vs 端侧

应该追踪什么

Ship AI that runs on your users' devices.

Ship AI that runs on your users' devices.

Keep reading

当应用获得用户时，你的AI API账单将增长10倍

端侧AI单位经济学: 让移动AI盈利的数学

移动应用的微调 vs 提示词工程