Back to blog
    On-Device 与云端 API:在 10K、50K 和 100K MAU 时的真实成本数学
    on-device AIcost optimizationmobile AIfine-tuningcloud API

    On-Device 与云端 API:在 10K、50K 和 100K MAU 时的真实成本数学

    对云端 API 定价与规模化 on-device 推理的成本进行毫不夸张的拆解。看看 on-device fine-tuning 究竟在何时回本,附完整表格、真实定价数据,以及那些没人写进 README 的隐藏成本。

    EErtas Team·

    你的 AI 功能在测试环境里表现完美。响应迅速、模型有能力、成本可以忽略不计。然后你达到了 10K 月活用户,账单也跟着到了。

    这个时刻,把能扩张的应用与那些悄悄被推倒重来的应用区分开。根据 Forrester 2026 年的报告,百分之七十的 CIO 把 AI 成本不可预测性列为最大的采用障碍。Menlo Ventures 发现,组织 AI 月均支出从 2024 年的 6.3 万美元跳升到 2025 年的 8.55 万美元,一年内增长 36%。Replit 的毛利率据报道随推理使用量扩张从 +36% 摆动到 -14%(Sacra)。

    好消息是:你可以在它发生之前就把它建模出来。本文展示这套数学。

    价格全景

    首先,我们先把真实的数字摆出来。所有价格按每 100 万 tokens 计,数据为 2026 年初。

    模型输入(每 100 万 tokens)输出(每 100 万 tokens)
    OpenAI GPT-4o$2.50$10.00
    OpenAI GPT-4.1-mini$0.40$1.60
    OpenAI GPT-4o-mini$0.15$0.60
    Anthropic Claude 3.5 Haiku$0.80$4.00
    Google Gemini 2.0 Flash$0.10$0.40

    在每一家供应商那里,输出 tokens 的成本都明显高于输入 tokens。这一点很重要,因为大多数成本估算只关注输入长度,而低估了输出端。

    成本模型:几个假设

    为了让讨论具体起来,我们需要一个基准用量假设。下面是一个带有 AI 助手功能的移动应用的合理模型:

    • 每位用户每天 3 次互动(对一款日常使用的应用而言较为保守)
    • 每次互动 500 输入 tokens(简短的 system prompt 加上用户消息)
    • 每次互动 500 输出 tokens(段落长度的回复)
    • 月活用户分别为 10K、50K 和 100K

    也就是每位用户每月 30 次互动,每次互动总计 1,000 tokens(输入和输出各占一半)。

    每位用户每月总 tokens:30,000(15K 输入 + 15K 输出)。

    规模化下的云端 API 成本

    下面是这套数学在三个 MAU 节点产生的结果。

    10,000 MAU

    模型月成本
    Gemini 2.0 Flash$67.50
    GPT-4o-mini$337.50
    GPT-4.1-mini$900.00
    Claude 3.5 Haiku$1,500.00
    GPT-4o$5,625.00

    50,000 MAU

    模型月成本
    Gemini 2.0 Flash$337.50
    GPT-4o-mini$1,687.50
    GPT-4.1-mini$4,500.00
    Claude 3.5 Haiku$7,500.00
    GPT-4o$28,125.00

    100,000 MAU

    模型月成本
    Gemini 2.0 Flash$675.00
    GPT-4o-mini$3,375.00
    GPT-4.1-mini$9,000.00
    Claude 3.5 Haiku$15,000.00
    GPT-4o$56,250.00

    这些是最低估算。它们不包含重试逻辑、流式开销、随对话延伸而增长的上下文窗口,也不包含运行 RAG 时 embedding 调用的成本。真实世界的 token 使用量通常是估算值的 1.5 到 2 倍。

    On-Device 这条替代路线

    On-device 推理把模型跑在用户的硬件上。模型分发完成之后,每一次推理对你来说都是零成本。没有按 token 收费、没有 API 调用、没有出口流量费。

    你真正需要支付的两块成本是:

    1. Fine-tuning(一次性):在云端 GPU 服务上训练一个 LoRA 适配器,根据数据集大小和基础模型不同大约要花 $5–$50。这是每个模型版本的一次性成本,不是按用户或按推理收费。

    2. 模型分发(每次安装一次性):你随应用一起发送一个 GGUF 文件。适合移动端的实用模型 GGUF 体积:Llama 3.2 1B 的 Q4_K_M 量化版是 808MB;3B 版本是 2.02GB。1GB 文件按标准费率走 CDN 出口,每次安装不到 $0.10。对 10K 用户来说,这意味着大约 $1,000 的总分发成本,在安装时摊销,而不是按月发生。

    月度持续成本:$0。

    收支平衡点

    以 GPT-4o-mini 作为基准(注重成本的团队常用之选):

    MAUGPT-4o-mini 月成本On-Device 月成本收支平衡(月数)
    10K$337.50$0上线后不到 1 个月
    50K$1,687.50$0上线后不到 1 个月
    100K$3,375.00$0上线后不到 1 个月

    只要 MAU 超过几百,$5–$50 的一次性 fine-tuning 成本基本上在第一个月就会回本。真正的成本只剩集成所需的工程时间和最初的模型分发。

    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    云端 API 的隐藏成本

    价格表并不是故事的全部。云端 API 依赖会带来一组不会出现在月账单上的成本。

    限速与延迟尖峰

    每一家主要供应商都会施加限速:每分钟 tokens、每分钟请求数、每日上限。这些都按账户等级分层,要往上调通常需要数周的使用历史。在出现尖峰的时候(走红的瞬间、产品发布、某个功能开始上热门),你恰恰会在最需要可靠性的时候撞上限速。限速错误需要客户端的重试逻辑,这增加了复杂性,并可能级联成用户能感知到的故障。

    延迟也会浮动。云端模型端点是共享基础设施。在高峰负载期,P99 延迟可能达到 5–10 秒。相比之下,on-device 推理是确定性的。它跑在专属硬件上,没有网络往返。

    供应商锁定与下线风险

    模型 API 不是稳定的契约。OpenAI 已经下线了 GPT-3、GPT-3.5 以及多个 fine-tuning 端点。Anthropic、Google 等公司也走的是类似路径。当一个模型被下线时,你会拿到一个迁移窗口,通常是 6–12 个月,用来更新提示、重新测试、重新部署。在 GPT-4o-mini 上效果良好的提示工程,不一定能直接迁移到新模型上。

    On-device 模型不会按供应商的时间表下线。你自己控制何时升级,可以无限期地为旧版本应用提供支持,而不必为一个你已经无法控制的 API 端点继续付费。

    网络依赖

    每个 AI 功能都要求保持互联网连接的移动应用,会受到一个硬性约束。On-device 模型可以离线运行。对于笔记应用、生产力工具、local-first 应用,或任何面向连接性不可靠地区的应用而言,离线能力是真正的竞争优势,而不只是锦上添花。

    隐私与数据驻留

    每一次 API 调用都会把用户的输入发送到第三方服务器。对处理敏感数据(健康、金融、法律、HR)的应用来说,这创造了合规面。On-device 推理把用户数据保留在设备上。数据从不离开。

    云端 API 仍然合理的场景

    On-device 并不是每一个用例的正确答案。请坦诚面对下面这些场景:

    **原型开发和早期阶段。**当 MAU 还不到几百的时候,经济性更偏向云端。你还在验证功能。使用 GPT-4o-mini 或 Gemini Flash,仔细监测 token 使用情况,等到 1K–5K MAU 的时候再回头审视模型架构。

    **需要前沿模型能力的任务。**1B–7B 参数范围的 on-device 模型在摘要、分类、抽取、简单 Q&A、短文本生成上有能力。它们不适合复杂的多步推理、跨大型代码库的代码生成,或那些真正受益于 100B+ 参数模型的任务。如果你的功能需要 GPT-4o 级别的推理,on-device 不是替代品。

    **低吞吐的 B2B 工具。**如果你只有 200 名企业用户,每人每周 10 次互动,你的 GPT-4o 账单不到 $100/月。在这种量级,搬到 on-device 的工程投入并不划算。

    **需求快速变化的任务。**如果你的 system prompt 每周都在变,而且你正在快速迭代模型行为,云端的迭代回路要快得多。重新做 fine-tuning 并重新分发一个 on-device 模型,比推送一份新的 system prompt 要花更多时间。

    一个实用的决策框架

    因素云端 APIOn-Device
    MAU 低于 2,000优先不值这份开销
    MAU 高于 10,000昂贵划算
    必须离线不行
    隐私敏感数据有风险默认安全
    复杂推理任务能力更强受限
    快速提示迭代容易需要重新部署
    确定性延迟不行
    供应商下线风险

    这个决策不是非此即彼。一种常见的混合架构是:把核心功能(摘要、打标签、快速回复)放在 on-device,把特定的高复杂度请求路由到云端 API。这样可以让 80%–90% 的推理量留在 on-device,以零 token 成本运行,同时为边缘场景保留对前沿能力的访问。

    通往 On-Device 的工程路径

    历史上,on-device AI 的实际门槛一直是工具链。Fine-tuning 需要 ML 基础设施,导出到 GGUF 需要模型转换工具,把推理集成到移动应用需要平台特定的绑定。

    这就是 Ertas 的位置。该平台在一个流水线里处理 fine-tuning(基于你数据集的 LoRA 适配器)、量化以及 GGUF 导出。你提供训练数据和目标用例。你拿到一份可用于移动部署的 GGUF 文件,以及面向 iOS(通过 llama.cpp 绑定)和 Android 的集成指引。

    $5–$50 的一次性 fine-tuning 成本,对比一份会随你获得的每一位用户线性增长的月度 API 账单:这道数学题很快就会自己解出来。

    结论

    在 10K MAU 使用 GPT-4o-mini 时,你每月支付 $337。在 50K MAU 时是 $1,687。在 100K MAU 时是 $3,375 一个月,而且这是用便宜模型加保守用量假设算出来的。GPT-4o 在 100K MAU 时是 $56,250 一个月。

    On-device 推理在不到 $50 的一次性 fine-tuning 投入和在安装时摊销的模型分发成本之后,运行成本是 $0。

    收支平衡不是几个月之后的事。对几乎任何活跃用户超过几百的应用来说,API 账单会在上线后的第一个计费周期内就超过 fine-tuning 的成本。问题不是 on-device 是不是更便宜。问题是你什么时候去把它做出来。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading