
移动端 AI API 定价: 每用户的真实成本
如何计算每个移动应用用户的真实 AI 成本。供应商对比、隐藏的成本倍增因素,以及决定你的 AI 功能是否可持续的单位经济学。
你的 AI 功能每次请求花费 $0.003。听起来微不足道。但每个用户每天发起 3-5 次请求。你有 10,000 MAU。月账单是 $2,700-$4,500。如果你的应用收费 $4.99/月, AI 刚刚吃掉了总收入的 5-9%。
每用户成本才是关键数字。不是每 token 成本,不是每请求成本。每用户每月的成本决定了你的 AI 功能能否在规模化时保持可持续。
计算每用户成本
公式:
每用户每月成本 = (每请求 token 数) * (每用户每天请求数) * 30 * (每 token 价格)
但这个公式只有在你计入所有 token 来源时才成立。大多数开发者会遗漏其中三个。
每次请求的 Token 来源
用户输入: 用户发送的实际文本。移动端通常 50-300 个 token(短消息、搜索查询、简短提示)。
系统提示词: 每次请求都会发送。通常 800-1,500 个 token。这是你的应用给模型的指令: 角色设定、格式规则、安全护栏、应用上下文。
对话历史: 对 于聊天类功能,所有之前的消息都会随每次请求重新发送。5 轮对话意味着第 5 轮包含前 4 轮的全部交互内容。
RAG 上下文: 如果你注入了检索的文档或产品知识,每次请求额外增加 500-3,000 个 token。
每次请求的实际 Token 数量
| 组件 | Token 数 | 每次请求都发送? |
|---|---|---|
| 系统提示词 | 1,200 | 是 |
| 用户输入 | 200 | 是 |
| 对话历史(平均) | 1,500 | 是(聊天功能) |
| RAG 上下文 | 1,000 | 视情况而定 |
| 模型输出 | 400 | 是 |
| 合计(聊天 + RAG) | 4,300 | |
| 合计(单轮) | 1,800 |
"每请求 1,000 token" 的简单估算低估了 2-4 倍。
供应商对比: 每用户每月成本
使用实际 token 数量,每用户每天 3 次请求,每月 30 天。
单轮功能(无聊天历史)
1,800 输入 + 400 输出 token/请求。每用户每月 90 次请求。
| 供应商/模型 | 输入成本 | 输出成本 | 每用户/月总计 |
|---|---|---|---|
| Gemini 2.0 Flash | $0.016 | $0.014 | $0.030 |
| GPT-4o-mini | $0.024 | $0.022 | $0.046 |
| GPT-4.1-mini | $0.065 | $0.058 | $0.123 |
| Claude 3.5 Haiku | $0.130 | $0.144 | $0.274 |
| GPT-4o | $0.405 | $0.360 | $0.765 |
| Claude 3.5 Sonnet | $0.486 | $0.540 | $1.026 |
聊天功能(带对话历史)
4,300 输入 + 400 输出 token/请求。每用户每月 90 次请求。
| 供应商/模型 | 输入成本 | 输出成本 | 每用户/月总计 |
|---|---|---|---|
| Gemini 2.0 Flash | $0.039 | $0.014 | $0.053 |
| GPT-4o-mini | $0.058 | $0.022 | $0.080 |
| GPT-4.1-mini | $0.155 | $0.058 | $0.213 |
| Claude 3.5 Haiku | $0.310 | $0.144 | $0.454 |
| GPT-4o | $0.968 | $0.360 | $1.328 |
| Claude 3.5 Sonnet | $1.161 | $0.540 | $1.701 |
规模化意味着什么
| MAU | Gemini Flash | GPT-4o-mini | Claude Haiku | GPT-4o |
|---|---|---|---|---|
| 1,000 | $53 | $80 | $454 | $1,328 |
| 10,000 | $530 | $800 | $4,540 | $13,280 |
| 50,000 | $2,650 | $4,000 | $22,700 | $66,400 |
| 100,000 | $5,300 | $8,000 | $45,400 | $132,800 |
可持续性门槛
如果你的应用每月向每用户收费 $4.99, AI 消耗了多少百分比的收入?
| 模型 | 每用户成本 | 占 $4.99 收入的 % | 可持续? |
|---|---|---|---|
| Gemini Flash(聊天) | $0.053 | 1.1% | 是 |
| GPT-4o-mini(聊天) | $0.080 | 1.6% | 是 |
| GPT-4.1-mini(聊天) | $0.213 | 4.3% | 边缘 |
| Claude Haiku(聊天) | $0.454 | 9.1% | 有风险 |
| GPT-4o(聊天) | $1.328 | 26.6% | 否 |
| Claude Sonnet(聊天) | $1.701 | 34.1% | 否 |
当 AI 成本占收入的 1-2% 时,是可持续的。占 5-10% 时,就开始和其他成本中心争夺资源。超过 10%,利润率会受到威胁。
但这些数字假设每用户每天 3 次请求。重度用户每天 10-20 次请求,成本是普通用户的 3-7 倍。如果 10% 的用户是重度用户,他们可能占据你 30-50% 的 AI 支出。
隐藏的成本倍增因素
重试
在规模化运营中, 2-5% 的 API 调用会失败(速率限制、超时、服务器 错误)。每次重试都会重新发送完整的请求负载。需要在总 token 支出上额外预算 3-5%。
提示词工程开销
随着你迭代系统提示词,它往往会膨胀。从 500 token 开始,最终变成 1,500。每一条新增的指令、安全护栏或示例都会乘以每次请求、每个用户、每一天。
功能扩展
一个 AI 功能变成三个。聊天、摘要和智能建议各自有独立的 API 调用。每用户每天的总请求数从 3 增长到 10+。
免费层 / 免费增值
如果你的应用有包含 AI 功能的免费层,这些用户产生成本却零收入。一个 90% 用户免费的免费增值模型意味着付费用户必须承担自身 AI 成本的 10 倍。