
移动端 AI API 定价: 每用户的真实成本
如何计算每个移动应用用户的真实 AI 成本。供应商对比、隐藏的成本倍增因素,以及决定你的 AI 功能是否可持续的单位经济学。
你的 AI 功能每次请求花费 $0.003。听起来微不足道。但每个用户每天发起 3-5 次请求。你有 10,000 MAU。月账单是 $2,700-$4,500。如果你的应用收费 $4.99/月, AI 刚刚吃掉了总收入的 5-9%。
每用户成本才是关键数字。不是每 token 成本,不是每请求成本。每用户每月的成本决定了你的 AI 功能能否在规模化时保持可持续。
计算每用户成本
公式:
每用户每月成本 = (每请求 token 数) * (每用户每天请求数) * 30 * (每 token 价格)
但这个公式只有在你计入所有 token 来源时才成立。大多数开发者会遗漏其中三个。
每次请求的 Token 来源
用户输入: 用户发送的实际文本。移动端通常 50-300 个 token(短消息、搜索查询、简短提示)。
系统提示词: 每次请求都会发送。通常 800-1,500 个 token。这是你的应用给模型的指令: 角色设定、格式规则、安全护栏、应用上下文。
对话历史: 对于聊天类功能,所有之前的消息都会随每次请求重新发送。5 轮对话意味着第 5 轮包含前 4 轮的全部交互内容。
RAG 上下文: 如果你注入了检索的文档或产品知识,每次请求额外增加 500-3,000 个 token。
每次请求的实际 Token 数量
| 组件 | Token 数 | 每次请求都发送? |
|---|---|---|
| 系统提示词 | 1,200 | 是 |
| 用户输入 | 200 | 是 |
| 对话历史(平均) | 1,500 | 是(聊天功能) |
| RAG 上下文 | 1,000 | 视情况而定 |
| 模型输出 | 400 | 是 |
| 合计(聊天 + RAG) | 4,300 | |
| 合计(单轮) | 1,800 |
"每请求 1,000 token" 的简单估算低估了 2-4 倍。
供应商对比: 每用户每月成本
使用实际 token 数量,每用户每天 3 次请求,每月 30 天。
单轮功能(无聊天历史)
1,800 输入 + 400 输出 token/请求。每用户每月 90 次请求。
| 供应商/模型 | 输入成本 | 输出成本 | 每用户/月总计 |
|---|---|---|---|
| Gemini 2.0 Flash | $0.016 | $0.014 | $0.030 |
| GPT-4o-mini | $0.024 | $0.022 | $0.046 |
| GPT-4.1-mini | $0.065 | $0.058 | $0.123 |
| Claude 3.5 Haiku | $0.130 | $0.144 | $0.274 |
| GPT-4o | $0.405 | $0.360 | $0.765 |
| Claude 3.5 Sonnet | $0.486 | $0.540 | $1.026 |
聊天功能(带对话历史)
4,300 输入 + 400 输出 token/请求。每用户每月 90 次请求。
| 供应商/模型 | 输入成本 | 输出成本 | 每用户/月总计 |
|---|---|---|---|
| Gemini 2.0 Flash | $0.039 | $0.014 | $0.053 |
| GPT-4o-mini | $0.058 | $0.022 | $0.080 |
| GPT-4.1-mini | $0.155 | $0.058 | $0.213 |
| Claude 3.5 Haiku | $0.310 | $0.144 | $0.454 |
| GPT-4o | $0.968 | $0.360 | $1.328 |
| Claude 3.5 Sonnet | $1.161 | $0.540 | $1.701 |
规模化意味着什么
| MAU | Gemini Flash | GPT-4o-mini | Claude Haiku | GPT-4o |
|---|---|---|---|---|
| 1,000 | $53 | $80 | $454 | $1,328 |
| 10,000 | $530 | $800 | $4,540 | $13,280 |
| 50,000 | $2,650 | $4,000 | $22,700 | $66,400 |
| 100,000 | $5,300 | $8,000 | $45,400 | $132,800 |
可持续性门槛
如果你的应用每月向每用户收费 $4.99, AI 消耗了多少百分比的收入?
| 模型 | 每用户成本 | 占 $4.99 收入的 % | 可持续? |
|---|---|---|---|
| Gemini Flash(聊天) | $0.053 | 1.1% | 是 |
| GPT-4o-mini(聊天) | $0.080 | 1.6% | 是 |
| GPT-4.1-mini(聊天) | $0.213 | 4.3% | 边缘 |
| Claude Haiku(聊天) | $0.454 | 9.1% | 有风险 |
| GPT-4o(聊天) | $1.328 | 26.6% | 否 |
| Claude Sonnet(聊天) | $1.701 | 34.1% | 否 |
当 AI 成本占收入的 1-2% 时,是可持续的。占 5-10% 时,就开始和其他成本中心争夺资源。超过 10%,利润率会受到威胁。
但这些数字假设每用户每天 3 次请求。重度用户每天 10-20 次请求,成本是普通用户的 3-7 倍。如果 10% 的用户是重度用户,他们可能占据你 30-50% 的 AI 支出。
隐藏的成本倍增因素
重试
在规模化运营中, 2-5% 的 API 调用会失败(速率限制、超时、服务器错误)。每次重试都会重新发送完整的请求负载。需要在总 token 支出上额外预算 3-5%。
提示词工程开销
随着你迭代系统提 示词,它往往会膨胀。从 500 token 开始,最终变成 1,500。每一条新增的指令、安全护栏或示例都会乘以每次请求、每个用户、每一天。
功能扩展
一个 AI 功能变成三个。聊天、摘要和智能建议各自有独立的 API 调用。每用户每天的总请求数从 3 增长到 10+。
免费层 / 免费增值
如果你的应用有包含 AI 功能的免费层,这些用户产生成本却零收入。一个 90% 用户免费的免费增值模型意味着付费用户必须承担自身 AI 成本的 10 倍。
盈亏平衡点: 云端 vs 端侧
端侧推理有固定的成本结构: 一次性微调费用($5-50)加上 CDN 分发(每 GB 模型下载约 $0.08)。每次推理成本为 $0。
盈亏平衡很简单: 当你的月度云 API 账单超过一次性微调成本时,端侧就更便宜了。
| 场景 | 月度云端成本 | 一次性微调费用 | 盈亏平衡 |
|---|---|---|---|
| 500 MAU, GPT-4o-mini | $40 | $10-30 | 第 1 个月 |
| 1K MAU, Gemini Flash | $53 | $10-30 | 第 1 个月 |
| 5K MAU, GPT-4o-mini | $400 | $10-30 | 第 1 个月 |
在任何达到一定规模的用户量下,数学都支持端侧方案。问题不是"是否"而是在你的增长轨迹中"何时"做出转换。
像 Ertas 这样的平台使转换变得切实可行: 上传你的训练数据(可以从现有 API 日志中提取),使用 LoRA 在云 GPU 上微调,导出为适合移动端部署的 GGUF 模型。整个流程只需数小时,而非数周。
应该追踪什么
从第一天起,在你的分析中追踪这些数字:
- 每用户每月成本(AI 总支出 / MAU)
- 每付费用户成本(如果是免费增值,只计算付费用户)
- 每用户每天请求数(识别重度用户)
- 每请求 token 数(关注系统提示词的膨胀)
- AI 成本占每用户收入的百分比
设置警报。当每用户成本超过 $0.10/月时,开始规划端侧迁移。当超过 $0.50 时,执行迁移。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Your AI API Bill Will 10x When Your App Gets Users
The cost math most AI tutorials skip. Your API bill scales linearly with every user, and the real multipliers are worse than the pricing page suggests. Here's what happens at 1K, 10K, and 100K MAU.

On-Device AI Unit Economics: The Math That Makes Mobile AI Profitable
The complete unit economics breakdown for on-device AI vs cloud APIs. Fixed costs, variable costs, break-even analysis, and the financial model for scaling mobile AI features profitably.

Fine-Tuning vs Prompt Engineering for Mobile Apps
Prompt engineering is fast and flexible. Fine-tuning is accurate and cheap at scale. Here is the practical comparison for mobile developers deciding between the two approaches.