
端侧AI单位经济学: 让移动AI盈利的数学
端侧AI与云API的完整单位经济学分析。固定成本、可变成本、盈亏平衡分析,以及规模化移动AI功能盈利的财务模型。
云端AI有可变成本。每个用户、每次请求都要花钱。端侧AI有固定成本。微调一次,分发一次,永远免费运行。两者的财务结构根本不同,对移动应用业务的影响是深远的。
本文详细拆解两种方案的完整成本模型。
云API成本结构
可变成本(随用户增长)
| 成本组成 | 每用户月费 | 10K MAU时 | 100K MAU时 |
|---|---|---|---|
| API tokens (GPT-4o-mini) | $0.05-0.10 | $500-1,000 | $5,000-10,000 |
| API tokens (Gemini Flash) | $0.03-0.06 | $300-600 | $3,000-6,000 |
| 服务器基础设施 (代理/队列) | $0.01-0.02 | $100-200 | $1,000-2,000 |
| 可变成本总计 | $0.06-0.12 | $600-1,200 | $6,000-12,000 |
固定成本(不随规模变化)
| 成本组成 | 月费 |
|---|---|
| 开发者时间 (提示词工程、维护) | $2,000-5,000 |
| 监控和日志 | $50-200 |
| 固定成本总计 | $2,050-5,200 |
云AI总成本
10K MAU时: $2,650-6,400/月 100K MAU时: $8,050-17,200/月
可变部分在规模化时占主导。在100K MAU时,可变成本占AI总支出的75-85%。
端侧成本结构
一次性成本
| 成本组成 | 金额 | 频率 |
|---|---|---|
| 训练数据准备 | $500-2,000 (开发者时间) | 一次,之后增量 |
| 微调计算 | $5-50 | 每次训练运行 |
| llama.cpp集成 | $1,000-3,000 (开发者时间) | 一次 |
| 跨设备测试 | $500-1,500 (开发者时间) | 每次模型更新 |
| 一次性成本总计 | $2,005-6,550 |
持续性固定成本
| 成本组成 | 月费 |
|---|---|
| CDN模型分发 | $50-200 (按10万次下载/月计) |
| 模型重训练(季度) | 每次$5-50 = 摊销$2-17/月 |
| 开发者维护 | $500-1,000 |
| 持续性总计 | $552-1,217 |
可变成本
| 成本组成 | 每用户月费 |
|---|---|
| 每位新用户CDN带宽 | 约$0.08-0.15 (一次性模型下载) |
| 每次推理成本 | $0.00 |
| 可变成本总计 | 约$0.00 (初始下载后) |
端侧总成本
10K MAU时: $552-1,217/月 + 摊销一次性成本 100K MAU时: $552-1,217/月 + 摊销一次性成本
成本几乎不随用户数量变化。CDN成本随新用户下载略有增加,但与API token成本相比微乎其微。
盈亏平衡分析
端侧什么时候比云API更便宜?
对比GPT-4o-mini
| MAU | 云端月费 | 端侧月费 | 节省 |
|---|---|---|---|
| 500 | $2,680 | $1,052 | $1,628 (61%) |
| 1,000 | $2,750 | $1,052 | $1,698 (62%) |
| 5,000 | $3,150 | $1,052 | $2,098 (67%) |
| 10,000 | $3,650 | $1,102 | $2,548 (70%) |
| 50,000 | $7,550 | $1,152 | $6,398 (85%) |
| 100,000 | $12,550 | $1,217 | $11,333 (90%) |
盈亏平衡点: 500 MAU以下。 端侧从本质上第一个月就更便宜,因为一次性微调成本($5-50)低于任何有意义用户数量下哪怕一个月的云API成本。
对比Gemini Flash (最便宜的云API)
| MAU | 云端月费 | 端侧月费 | 节省 |
|---|---|---|---|
| 1,000 | $2,380 | $1,052 | $1,328 (56%) |
| 10,000 | $2,950 | $1,102 | $1,848 (63%) |
| 100,000 | $8,250 | $1,217 | $7,033 (85%) |
即使对比最便宜的云API,端侧在任何非微量用户数下从第一天起就能省钱。
规模化优势
端侧的财务优势随增长而复合:
云端: 从10K增长到100K MAU,每月增加$9,000-10,000的可变成本。 端侧: 从10K增长到100K MAU,每月仅增加约$65-115的CDN成本。
这是核心洞察。云AI的利润率随规模增长而压缩。端侧AI的利润率随规模增长而改善。基础设施成本分摊到更多用户上,每个用户贡献$0的可变成本。
对应用商业模式的影响
订阅应用 ($4.99/月)
| 模式 | AI成本/用户 | 占收入百分比 | 毛利率影响 |
|---|---|---|---|
| 云端 (GPT-4o-mini) | $0.08 | 1.6% | 每用户-1.6% |
| 云端 (Gemini Flash) | $0.05 | 1.0% | 每用户-1.0% |
| 端侧 | 约$0.01 | 0.2% | 每用户-0.2% |
端侧将AI的利润率影响降低了5-8倍。
免费增值应用
免费增值应用是差异最显著的地方。免费用户产生成本但带来零收入。
使用云AI: 每个免费用户每月花费$0.05-0.10的API调用。如果90%的用户是免费的,付费用户必须覆盖10倍自身的AI成本。
使用端侧AI: 免费用户的成本几乎为零。模型在他们的设备上运行。唯一的成本是一次性模型下载(约$0.08-0.15的CDN带宽)。
这完全改变了免费增值的数学。你可以向免费用户提供AI功能,而不必担心每个免费用户的成本会破坏你的利润率。
广告支持应用
每用户平均广告收入: $0.50-2.00/月。云AI每用户$0.05-0.10消耗了2.5-20%的广告收入。端侧AI每用户约$0.01消耗0.5-2%。这个差异可能决定了一个可持续和不可持续的业务之间的分界线。
投资回报
将端侧AI视为资本投资。前期成本($2,000-6,500的完整流程)回收很快:
| 替代的云端成本 | 回收期 |
|---|---|
| $500/月 | 4-13个月 |
| $1,000/月 | 2-7个月 |
| $3,000/月 | 不到2个月 |
| $10,000/月 | 不到1个月 |
在$3,000/月的云API成本下(30-50K MAU时很常见),整个端侧投资在不到两个月内就能回本。
Ertas等平台通过处理微调基础设施来降低前期投资。你提供训练数据。Ertas提供计算、训练流程和GGUF导出。一次性成本降低到微调计算费($5-50)加上你准备训练数据的时间。
建模要点
在选择任一方案之前,建一个简单的电子表格:
- 当前云AI每用户成本 (从你的账单面板获取)
- 预计用户增长 (每月)
- 云端成本曲线 (每用户成本 * 预计MAU)
- 端侧固定成本 (微调 + 集成 + 维护)
- 盈亏平衡月份 (累计云端成本超过累计端侧成本的时间)
对于大多数移动应用,盈亏平衡以月而非年计算。越早切换,产品生命周期内节省越多。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

AI API Pricing for Mobile: The Real Cost Per User
How to calculate the true cost of AI per mobile app user. Provider comparison, hidden multipliers, and the unit economics that determine whether your AI feature is sustainable.

Your AI API Bill Will 10x When Your App Gets Users
The cost math most AI tutorials skip. Your API bill scales linearly with every user, and the real multipliers are worse than the pricing page suggests. Here's what happens at 1K, 10K, and 100K MAU.

Why Your AI App Feels Slow: Network Latency Is the Bottleneck
AI API calls add 500-3,000ms of latency to every interaction. On mobile, that is the difference between a feature users love and one they abandon. Here is where the time goes and how to fix it.