
On-Device 与云端 API:在 10K、50K 和 100K MAU 时的真实成本数学
对云端 API 定价与规模化 on-device 推理的成本进行毫不夸张的拆解。看看 on-device fine-tuning 究竟在何时回本,附完整表格、真实定价数据,以及那些没人写进 README 的隐藏成本。
你的 AI 功能在测试环境里表现完美。响应迅速、模型有能力、成本可以忽略不计。然后你达到了 10K 月活用户,账单也跟着到了。
这个时刻,把能扩张的应用与那些悄悄被推倒重来的应用区分开。根据 Forrester 2026 年的报告,百分之七十的 CIO 把 AI 成本不可预测性列为最大的采用障碍。Menlo Ventures 发现,组织 AI 月均支出从 2024 年的 6.3 万美元跳升到 2025 年的 8.55 万美元,一年内增长 36%。Replit 的毛利率据报道随推理使用量扩张从 +36% 摆动 到 -14%(Sacra)。
好消息是:你可以在它发生之前就把它建模出来。本文展示这套数学。
价格全景
首先,我们先把真实的数字摆出来。所有价格按每 100 万 tokens 计,数据为 2026 年初。
| 模型 | 输入(每 100 万 tokens) | 输出(每 100 万 tokens) |
|---|---|---|
| OpenAI GPT-4o | $2.50 | $10.00 |
| OpenAI GPT-4.1-mini | $0.40 | $1.60 |
| OpenAI GPT-4o-mini | $0.15 | $0.60 |
| Anthropic Claude 3.5 Haiku | $0.80 | $4.00 |
| Google Gemini 2.0 Flash | $0.10 | $0.40 |
在每一家供应商那里,输出 tokens 的成本都明显高于输入 tokens。这一点很重要,因为大多数成本估算只关注输入长度,而低估了输出端。
成本模型:几个假设
为了让讨论具体起来,我们需要一个基准用量假设。下面是一个带有 AI 助手功能的移动应用的合理模型:
- 每位用户每天 3 次互动(对一款日常使用的应用而言较为保守)
- 每次互动 500 输入 tokens(简短的 system prompt 加上用户消息)
- 每次互动 500 输出 tokens(段落长度的回复)
- 月活用户分别为 10K、50K 和 100K
也就是每位用户每月 30 次互动,每次互动总计 1,000 tokens(输入和输出各占一半)。
每位用户每月总 tokens:30,000(15K 输入 + 15K 输出)。
规模化下的云端 API 成本
下面是这套数学在三个 MAU 节点产生的结果。
10,000 MAU
| 模型 | 月成本 |
|---|---|
| Gemini 2.0 Flash | $67.50 |
| GPT-4o-mini | $337.50 |
| GPT-4.1-mini | $900.00 |
| Claude 3.5 Haiku | $1,500.00 |
| GPT-4o | $5,625.00 |
50,000 MAU
| 模型 | 月成本 |
|---|---|
| Gemini 2.0 Flash | $337.50 |
| GPT-4o-mini | $1,687.50 |
| GPT-4.1-mini | $4,500.00 |
| Claude 3.5 Haiku | $7,500.00 |
| GPT-4o | $28,125.00 |
100,000 MAU
| 模型 | 月成本 |
|---|---|
| Gemini 2.0 Flash | $675.00 |
| GPT-4o-mini | $3,375.00 |
| GPT-4.1-mini | $9,000.00 |
| Claude 3.5 Haiku | $15,000.00 |
| GPT-4o | $56,250.00 |
这些是最低估算。它们不包含重试逻辑、流式开销、随对话延伸而增长的上下文窗口,也不包含运行 RAG 时 embedding 调用的成本。真实世界的 token 使用量通常是估算值的 1.5 到 2 倍。
On-Device 这条替代路线
On-device 推理把模型跑在用户的硬件上。模型分发完成之后,每一次推理对你来说都是零成本。没有按 token 收费、没有 API 调用、没有出口流量费。
你真正需要支付的两块成本是:
-
Fine-tuning(一次性):在云端 GPU 服务上训练一个 LoRA 适配器,根据数据集大小和基础模型不同大约要花 $5–$50。这是每个模型版本的一次性成本,不是按用户或按推理收费。
-
模型分发(每次安装一次性):你随应用一起发送一个 GGUF 文件。适合移动端的实用模型 GGUF 体积:Llama 3.2 1B 的 Q4_K_M 量化版是 808MB;3B 版本是 2.02GB。1GB 文件按标准费率走 CDN 出口,每次安装不到 $0.10。对 10K 用户来说,这意味着大约 $1,000 的总分发成本,在安装时摊销,而不是按月发生。
月度持续成本:$0。
收支平衡点
以 GPT-4o-mini 作为基准(注重成本的团队常用之选):
| MAU | GPT-4o-mini 月成本 | On-Device 月成本 | 收支平衡(月数) |
|---|---|---|---|
| 10K | $337.50 | $0 | 上线后不到 1 个月 |
| 50K | $1,687.50 | $0 | 上线后不到 1 个月 |
| 100K | $3,375.00 | $0 | 上线后不到 1 个月 |
只要 MAU 超过几百,$5–$50 的一次性 fine-tuning 成本基本上在第一个月就会回本。真正的成本只剩集成所需的工程时间和最初的模型分发。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
云端 API 的隐藏成本
价格表并不是故事的全部。云端 API 依赖会带来一组不会出现在月账单上的成本。
限速与延迟尖峰
每一家主要供应商都会施加限速:每分钟 tokens、每分钟请求数、每日上限。这些都按账户等级分层,要往上调通常需要数周的使用历史。在出现尖峰的时候(走红的瞬间、产品发布、某个功能开始上热门),你恰恰会在最需要可靠性的时候撞上限速。限速错误需要客户端的重试逻辑,这增加了复杂性,并可能级联成用户能感知到的故障。
延迟也会浮动。云端模型端点是共享基础设施。在高峰负载期,P99 延迟可能达到 5–10 秒。相比之下,on-device 推理是确定性的。它跑在专属硬件上,没有网络往返。
供应商锁定与下线风险
模型 API 不是稳定的契约。OpenAI 已经下线了 GPT-3、GPT-3.5 以及多个 fine-tuning 端点。Anthropic、Google 等公司也走的是类似路径。当一个模型被下线时,你会拿到一个迁移窗口,通常是 6–12 个月,用来更新提示、重新测试、重新部署。在 GPT-4o-mini 上效果良好的提示工程,不一定能直接迁移到新模型上。
On-device 模型不会按供应商的时间表下线。你自己控制何时升级,可以无限期地为旧版本应用提供支持,而不必为一个你已经无法控制的 API 端点继续付费。
网络依赖
每个 AI 功能都要求保持互联网连接的移动应用,会受到一个硬性约束。On-device 模型可以离线运行。对于笔记应用、生产力工具、local-first 应用,或任何面向连接性不可靠地区的应用而言,离线能力是真正的竞争优势,而不只是锦上添花。
隐私与数据驻留
每一次 API 调用都会把用户的输入发送到第三方服务器。对处理敏感数据(健康、金融、法律、HR)的应用来说,这创造了合规面。On-device 推理把用户数据保留在设备上。数据从不离开。
云端 API 仍然合理的场景
On-device 并不是每一个用例的正确答案。请坦诚面对下面这些场景:
**原型开发和早期阶段。**当 MAU 还不到几百的时候,经济性更偏向云端。你还在验证功能。使用 GPT-4o-mini 或 Gemini Flash,仔细监测 token 使用情况,等到 1K–5K MAU 的时候再回头审视模型架构。
**需要前沿模型能力的任务。**1B–7B 参数范围的 on-device 模型在摘要、分类、抽取、简单 Q&A、短文本生成上有能力。它们不适合复杂的多步推理、跨大型代码库的代码生成,或那些真正受益于 100B+ 参数模型的任务。如果你的功能需要 GPT-4o 级别的推理,on-device 不是替代品。
**低吞吐的 B2B 工具。**如果你只有 200 名企业用户,每人每周 10 次互动,你的 GPT-4o 账单不到 $100/月。在这种量级,搬到 on-device 的工程投入并不划算。
**需求快速变化的任务。**如果你的 system prompt 每周都在变,而且你正在快速迭代模型行为,云端的迭代回路要快得多。重新做 fine-tuning 并重新分发一个 on-device 模型,比推送一份新的 system prompt 要花更多时间。
一个实用的决策框架
| 因素 | 云端 API | On-Device |
|---|---|---|
| MAU 低于 2,000 | 优先 | 不值这份开销 |
| MAU 高于 10,000 | 昂贵 | 划算 |
| 必须离线 | 不行 | 行 |
| 隐私敏感数据 | 有风险 | 默认安全 |
| 复杂推理任务 | 能力更强 | 受限 |
| 快速提示迭代 | 容易 | 需要重新部署 |
| 确定性延迟 | 不行 | 行 |
| 供应商下线风险 | 高 | 无 |
这个决策不是非此即彼。一种常见的混合架构是:把核心功能(摘要、打标签、快速回复)放在 on-device,把特定的高复杂度请求路由到云端 API。这样可以让 80%–90% 的推理量留在 on-device,以零 token 成本运行,同时为边缘场景保留对前沿能力的访问。
通往 On-Device 的工程路径
历史上,on-device AI 的实际门槛一直是工具链。Fine-tuning 需要 ML 基础设施,导出到 GGUF 需要模型转换工具,把推理集成到移动应用需要平台特定的绑定。
这就是 Ertas 的位置。该平台在一个流水线里处理 fine-tuning(基于你数据集的 LoRA 适配器)、量化以及 GGUF 导出。你提供训练数据和目标用例。你拿到一份可用于移动部署的 GGUF 文件,以及面向 iOS(通过 llama.cpp 绑定)和 Android 的集成指引。
$5–$50 的一次性 fine-tuning 成本,对比一份会随你获得的每一位用户线性增长的月度 API 账单:这道数学题很快就会自己解出来。
结论
在 10K MAU 使用 GPT-4o-mini 时,你每月支付 $337。在 50K MAU 时是 $1,687。在 100K MAU 时是 $3,375 一个月,而且这是用便宜模型加保守用量假设算出来的。GPT-4o 在 100K MAU 时是 $56,250 一个月。
On-device 推理在不到 $50 的一次性 fine-tuning 投入和在安装时摊销的模型分发成本之后,运行成本是 $0。
收支平衡不是几个月之后的事。对几乎任何活跃用户超过几百的应用来说,API 账单会在上线后的第一个计费周期内就超过 fine-tuning 的成本。问题不是 on-device 是不是更便宜。问题是你什么时候去把它做出来。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Fine-Tuning vs RAG for Mobile: Why RAG Still Needs a Server
RAG is the go-to solution for giving AI domain knowledge. But on mobile, RAG reintroduces the server dependency you are trying to eliminate. Fine-tuning bakes the knowledge into the model itself.

Fine-Tuning vs Prompt Engineering for Mobile Apps
Prompt engineering is fast and flexible. Fine-tuning is accurate and cheap at scale. Here is the practical comparison for mobile developers deciding between the two approaches.

On-Device AI Unit Economics: The Math That Makes Mobile AI Profitable
The complete unit economics breakdown for on-device AI vs cloud APIs. Fixed costs, variable costs, break-even analysis, and the financial model for scaling mobile AI features profitably.