Back to blog
    移动端 AI API 定价: 每用户的真实成本
    cost optimizationAPI pricingmobile AIunit economicssegment:mobile-builder

    移动端 AI API 定价: 每用户的真实成本

    如何计算每个移动应用用户的真实 AI 成本。供应商对比、隐藏的成本倍增因素,以及决定你的 AI 功能是否可持续的单位经济学。

    EErtas Team·

    你的 AI 功能每次请求花费 $0.003。听起来微不足道。但每个用户每天发起 3-5 次请求。你有 10,000 MAU。月账单是 $2,700-$4,500。如果你的应用收费 $4.99/月, AI 刚刚吃掉了总收入的 5-9%。

    每用户成本才是关键数字。不是每 token 成本,不是每请求成本。每用户每月的成本决定了你的 AI 功能能否在规模化时保持可持续。

    计算每用户成本

    公式:

    每用户每月成本 = (每请求 token 数) * (每用户每天请求数) * 30 * (每 token 价格)

    但这个公式只有在你计入所有 token 来源时才成立。大多数开发者会遗漏其中三个。

    每次请求的 Token 来源

    用户输入: 用户发送的实际文本。移动端通常 50-300 个 token(短消息、搜索查询、简短提示)。

    系统提示词: 每次请求都会发送。通常 800-1,500 个 token。这是你的应用给模型的指令: 角色设定、格式规则、安全护栏、应用上下文。

    对话历史: 对于聊天类功能,所有之前的消息都会随每次请求重新发送。5 轮对话意味着第 5 轮包含前 4 轮的全部交互内容。

    RAG 上下文: 如果你注入了检索的文档或产品知识,每次请求额外增加 500-3,000 个 token。

    每次请求的实际 Token 数量

    组件Token 数每次请求都发送?
    系统提示词1,200
    用户输入200
    对话历史(平均)1,500是(聊天功能)
    RAG 上下文1,000视情况而定
    模型输出400
    合计(聊天 + RAG)4,300
    合计(单轮)1,800

    "每请求 1,000 token" 的简单估算低估了 2-4 倍。

    供应商对比: 每用户每月成本

    使用实际 token 数量,每用户每天 3 次请求,每月 30 天。

    单轮功能(无聊天历史)

    1,800 输入 + 400 输出 token/请求。每用户每月 90 次请求。

    供应商/模型输入成本输出成本每用户/月总计
    Gemini 2.0 Flash$0.016$0.014$0.030
    GPT-4o-mini$0.024$0.022$0.046
    GPT-4.1-mini$0.065$0.058$0.123
    Claude 3.5 Haiku$0.130$0.144$0.274
    GPT-4o$0.405$0.360$0.765
    Claude 3.5 Sonnet$0.486$0.540$1.026

    聊天功能(带对话历史)

    4,300 输入 + 400 输出 token/请求。每用户每月 90 次请求。

    供应商/模型输入成本输出成本每用户/月总计
    Gemini 2.0 Flash$0.039$0.014$0.053
    GPT-4o-mini$0.058$0.022$0.080
    GPT-4.1-mini$0.155$0.058$0.213
    Claude 3.5 Haiku$0.310$0.144$0.454
    GPT-4o$0.968$0.360$1.328
    Claude 3.5 Sonnet$1.161$0.540$1.701

    规模化意味着什么

    MAUGemini FlashGPT-4o-miniClaude HaikuGPT-4o
    1,000$53$80$454$1,328
    10,000$530$800$4,540$13,280
    50,000$2,650$4,000$22,700$66,400
    100,000$5,300$8,000$45,400$132,800

    可持续性门槛

    如果你的应用每月向每用户收费 $4.99, AI 消耗了多少百分比的收入?

    模型每用户成本占 $4.99 收入的 %可持续?
    Gemini Flash(聊天)$0.0531.1%
    GPT-4o-mini(聊天)$0.0801.6%
    GPT-4.1-mini(聊天)$0.2134.3%边缘
    Claude Haiku(聊天)$0.4549.1%有风险
    GPT-4o(聊天)$1.32826.6%
    Claude Sonnet(聊天)$1.70134.1%

    当 AI 成本占收入的 1-2% 时,是可持续的。占 5-10% 时,就开始和其他成本中心争夺资源。超过 10%,利润率会受到威胁。

    但这些数字假设每用户每天 3 次请求。重度用户每天 10-20 次请求,成本是普通用户的 3-7 倍。如果 10% 的用户是重度用户,他们可能占据你 30-50% 的 AI 支出。

    隐藏的成本倍增因素

    重试

    在规模化运营中, 2-5% 的 API 调用会失败(速率限制、超时、服务器错误)。每次重试都会重新发送完整的请求负载。需要在总 token 支出上额外预算 3-5%。

    提示词工程开销

    随着你迭代系统提示词,它往往会膨胀。从 500 token 开始,最终变成 1,500。每一条新增的指令、安全护栏或示例都会乘以每次请求、每个用户、每一天。

    功能扩展

    一个 AI 功能变成三个。聊天、摘要和智能建议各自有独立的 API 调用。每用户每天的总请求数从 3 增长到 10+。

    免费层 / 免费增值

    如果你的应用有包含 AI 功能的免费层,这些用户产生成本却零收入。一个 90% 用户免费的免费增值模型意味着付费用户必须承担自身 AI 成本的 10 倍。

    盈亏平衡点: 云端 vs 端侧

    端侧推理有固定的成本结构: 一次性微调费用($5-50)加上 CDN 分发(每 GB 模型下载约 $0.08)。每次推理成本为 $0。

    盈亏平衡很简单: 当你的月度云 API 账单超过一次性微调成本时,端侧就更便宜了。

    场景月度云端成本一次性微调费用盈亏平衡
    500 MAU, GPT-4o-mini$40$10-30第 1 个月
    1K MAU, Gemini Flash$53$10-30第 1 个月
    5K MAU, GPT-4o-mini$400$10-30第 1 个月

    在任何达到一定规模的用户量下,数学都支持端侧方案。问题不是"是否"而是在你的增长轨迹中"何时"做出转换。

    像 Ertas 这样的平台使转换变得切实可行: 上传你的训练数据(可以从现有 API 日志中提取),使用 LoRA 在云 GPU 上微调,导出为适合移动端部署的 GGUF 模型。整个流程只需数小时,而非数周。

    应该追踪什么

    从第一天起,在你的分析中追踪这些数字:

    1. 每用户每月成本(AI 总支出 / MAU)
    2. 每付费用户成本(如果是免费增值,只计算付费用户)
    3. 每用户每天请求数(识别重度用户)
    4. 每请求 token 数(关注系统提示词的膨胀)
    5. AI 成本占每用户收入的百分比

    设置警报。当每用户成本超过 $0.10/月时,开始规划端侧迁移。当超过 $0.50 时,执行迁移。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading