On-Device 与云端 API:在 10K、50K 和 100K MAU 时的真实成本数学

你的 AI 功能在测试环境里表现完美。响应迅速、模型有能力、成本可以忽略不计。然后你达到了 10K 月活用户,账单也跟着到了。

这个时刻,把能扩张的应用与那些悄悄被推倒重来的应用区分开。根据 Forrester 2026 年的报告,百分之七十的 CIO 把 AI 成本不可预测性列为最大的采用障碍。Menlo Ventures 发现,组织 AI 月均支出从 2024 年的 6.3 万美元跳升到 2025 年的 8.55 万美元,一年内增长 36%。Replit 的毛利率据报道随推理使用量扩张从 +36% 摆动到 -14%(Sacra)。

好消息是:你可以在它发生之前就把它建模出来。本文展示这套数学。

价格全景

首先,我们先把真实的数字摆出来。所有价格按每 100 万 tokens 计,数据为 2026 年初。

模型	输入(每 100 万 tokens)	输出(每 100 万 tokens)
OpenAI GPT-4o	$2.50	$10.00
OpenAI GPT-4.1-mini	$0.40	$1.60
OpenAI GPT-4o-mini	$0.15	$0.60
Anthropic Claude 3.5 Haiku	$0.80	$4.00
Google Gemini 2.0 Flash	$0.10	$0.40

在每一家供应商那里,输出 tokens 的成本都明显高于输入 tokens。这一点很重要,因为大多数成本估算只关注输入长度,而低估了输出端。

成本模型:几个假设

为了让讨论具体起来,我们需要一个基准用量假设。下面是一个带有 AI 助手功能的移动应用的合理模型:

每位用户每天 3 次互动(对一款日常使用的应用而言较为保守)
每次互动 500 输入 tokens(简短的 system prompt 加上用户消息)
每次互动 500 输出 tokens(段落长度的回复)
月活用户分别为 10K、50K 和 100K

也就是每位用户每月 30 次互动,每次互动总计 1,000 tokens(输入和输出各占一半)。

每位用户每月总 tokens:30,000(15K 输入 + 15K 输出)。

规模化下的云端 API 成本

下面是这套数学在三个 MAU 节点产生的结果。

10,000 MAU

模型	月成本
Gemini 2.0 Flash	$67.50
GPT-4o-mini	$337.50
GPT-4.1-mini	$900.00
Claude 3.5 Haiku	$1,500.00
GPT-4o	$5,625.00

50,000 MAU

模型	月成本
Gemini 2.0 Flash	$337.50
GPT-4o-mini	$1,687.50
GPT-4.1-mini	$4,500.00
Claude 3.5 Haiku	$7,500.00
GPT-4o	$28,125.00

100,000 MAU

模型	月成本
Gemini 2.0 Flash	$675.00
GPT-4o-mini	$3,375.00
GPT-4.1-mini	$9,000.00
Claude 3.5 Haiku	$15,000.00
GPT-4o	$56,250.00

这些是最低估算。它们不包含重试逻辑、流式开销、随对话延伸而增长的上下文窗口,也不包含运行 RAG 时 embedding 调用的成本。真实世界的 token 使用量通常是估算值的 1.5 到 2 倍。

On-Device 这条替代路线

On-device 推理把模型跑在用户的硬件上。模型分发完成之后,每一次推理对你来说都是零成本。没有按 token 收费、没有 API 调用、没有出口流量费。

你真正需要支付的两块成本是:

Fine-tuning(一次性):在云端 GPU 服务上训练一个 LoRA 适配器,根据数据集大小和基础模型不同大约要花 $5–$50。这是每个模型版本的一次性成本,不是按用户或按推理收费。
模型分发(每次安装一次性):你随应用一起发送一个 GGUF 文件。适合移动端的实用模型 GGUF 体积:Llama 3.2 1B 的 Q4_K_M 量化版是 808MB;3B 版本是 2.02GB。1GB 文件按标准费率走 CDN 出口,每次安装不到 $0.10。对 10K 用户来说,这意味着大约 $1,000 的总分发成本,在安装时摊销,而不是按月发生。

月度持续成本:$0。

收支平衡点

以 GPT-4o-mini 作为基准(注重成本的团队常用之选):

MAU	GPT-4o-mini 月成本	On-Device 月成本	收支平衡(月数)
10K	$337.50	$0	上线后不到 1 个月
50K	$1,687.50	$0	上线后不到 1 个月
100K	$3,375.00	$0	上线后不到 1 个月

只要 MAU 超过几百,$5–$50 的一次性 fine-tuning 成本基本上在第一个月就会回本。真正的成本只剩集成所需的工程时间和最初的模型分发。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

云端 API 的隐藏成本

价格表并不是故事的全部。云端 API 依赖会带来一组不会出现在月账单上的成本。

限速与延迟尖峰

每一家主要供应商都会施加限速:每分钟 tokens、每分钟请求数、每日上限。这些都按账户等级分层,要往上调通常需要数周的使用历史。在出现尖峰的时候(走红的瞬间、产品发布、某个功能开始上热门),你恰恰会在最需要可靠性的时候撞上限速。限速错误需要客户端的重试逻辑,这增加了复杂性,并可能级联成用户能感知到的故障。

延迟也会浮动。云端模型端点是共享基础设施。在高峰负载期,P99 延迟可能达到 5–10 秒。相比之下,on-device 推理是确定性的。它跑在专属硬件上,没有网络往返。

供应商锁定与下线风险

模型 API 不是稳定的契约。OpenAI 已经下线了 GPT-3、GPT-3.5 以及多个 fine-tuning 端点。Anthropic、Google 等公司也走的是类似路径。当一个模型被下线时,你会拿到一个迁移窗口,通常是 6–12 个月,用来更新提示、重新测试、重新部署。在 GPT-4o-mini 上效果良好的提示工程,不一定能直接迁移到新模型上。

On-device 模型不会按供应商的时间表下线。你自己控制何时升级,可以无限期地为旧版本应用提供支持,而不必为一个你已经无法控制的 API 端点继续付费。

网络依赖

每个 AI 功能都要求保持互联网连接的移动应用,会受到一个硬性约束。On-device 模型可以离线运行。对于笔记应用、生产力工具、local-first 应用,或任何面向连接性不可靠地区的应用而言,离线能力是真正的竞争优势,而不只是锦上添花。

隐私与数据驻留

每一次 API 调用都会把用户的输入发送到第三方服务器。对处理敏感数据(健康、金融、法律、HR)的应用来说,这创造了合规面。On-device 推理把用户数据保留在设备上。数据从不离开。

云端 API 仍然合理的场景

On-device 并不是每一个用例的正确答案。请坦诚面对下面这些场景:

**原型开发和早期阶段。**当 MAU 还不到几百的时候,经济性更偏向云端。你还在验证功能。使用 GPT-4o-mini 或 Gemini Flash,仔细监测 token 使用情况,等到 1K–5K MAU 的时候再回头审视模型架构。

**需要前沿模型能力的任务。**1B–7B 参数范围的 on-device 模型在摘要、分类、抽取、简单 Q&A、短文本生成上有能力。它们不适合复杂的多步推理、跨大型代码库的代码生成,或那些真正受益于 100B+ 参数模型的任务。如果你的功能需要 GPT-4o 级别的推理,on-device 不是替代品。

**低吞吐的 B2B 工具。**如果你只有 200 名企业用户,每人每周 10 次互动,你的 GPT-4o 账单不到 $100/月。在这种量级,搬到 on-device 的工程投入并不划算。

**需求快速变化的任务。**如果你的 system prompt 每周都在变,而且你正在快速迭代模型行为,云端的迭代回路要快得多。重新做 fine-tuning 并重新分发一个 on-device 模型,比推送一份新的 system prompt 要花更多时间。

一个实用的决策框架

因素	云端 API	On-Device
MAU 低于 2,000	优先	不值这份开销
MAU 高于 10,000	昂贵	划算
必须离线	不行	行
隐私敏感数据	有风险	默认安全
复杂推理任务	能力更强	受限
快速提示迭代	容易	需要重新部署
确定性延迟	不行	行
供应商下线风险	高	无

这个决策不是非此即彼。一种常见的混合架构是:把核心功能(摘要、打标签、快速回复)放在 on-device,把特定的高复杂度请求路由到云端 API。这样可以让 80%–90% 的推理量留在 on-device,以零 token 成本运行,同时为边缘场景保留对前沿能力的访问。

通往 On-Device 的工程路径

历史上,on-device AI 的实际门槛一直是工具链。Fine-tuning 需要 ML 基础设施,导出到 GGUF 需要模型转换工具,把推理集成到移动应用需要平台特定的绑定。

这就是 Ertas 的位置。该平台在一个流水线里处理 fine-tuning(基于你数据集的 LoRA 适配器)、量化以及 GGUF 导出。你提供训练数据和目标用例。你拿到一份可用于移动部署的 GGUF 文件,以及面向 iOS(通过 llama.cpp 绑定)和 Android 的集成指引。

$5–$50 的一次性 fine-tuning 成本,对比一份会随你获得的每一位用户线性增长的月度 API 账单:这道数学题很快就会自己解出来。

结论

在 10K MAU 使用 GPT-4o-mini 时,你每月支付 $337。在 50K MAU 时是 $1,687。在 100K MAU 时是 $3,375 一个月,而且这是用便宜模型加保守用量假设算出来的。GPT-4o 在 100K MAU 时是 $56,250 一个月。

On-device 推理在不到 $50 的一次性 fine-tuning 投入和在安装时摊销的模型分发成本之后,运行成本是 $0。

收支平衡不是几个月之后的事。对几乎任何活跃用户超过几百的应用来说,API 账单会在上线后的第一个计费周期内就超过 fine-tuning 的成本。问题不是 on-device 是不是更便宜。问题是你什么时候去把它做出来。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

On-Device 与云端 API:在 10K、50K 和 100K MAU 时的真实成本数学

价格全景

成本模型:几个假设

规模化下的云端 API 成本

10,000 MAU

50,000 MAU

100,000 MAU

On-Device 这条替代路线

收支平衡点

云端 API 的隐藏成本

限速与延迟尖峰

供应商锁定与下线风险

网络依赖

隐私与数据驻留

云端 API 仍然合理的场景

一个实用的决策框架

通往 On-Device 的工程路径

结论

Ship AI that runs on your users' devices.

Ship AI that runs on your users' devices.

Keep reading

移动应用的微调 vs 提示词工程

移动端微调 vs RAG: 为什么RAG仍然需要服务器

端侧AI单位经济学: 让移动AI盈利的数学