
当应用获得用户时,你的AI API账单将增长10倍
大多数AI教程跳过的成本计算。你的API账单随每个用户线性增长,真实的乘数效应比定价页面显示的更糟。以下是1K、10K和100K MAU时会发生什么。
你构建了一个AI功能。效果很好。50个内测用户很喜欢它。月度API账单是$4.20。你发布了。
你的应用被推荐。下载量暴增。你达到5,000月活用户。API账单到了:$1,687。下个月,10,000 MAU。账单:$3,375。再下个月,20,000 MAU。你现在每月在AI推理上花费$6,750。
这不是失败。这是按令牌计费在规模化后可预测的数学结果。每个教程教你怎么调API,但没有一个给你看这条曲线。
粗略估算
大多数开发者这样计算API成本:
每次请求的令牌数 * 每令牌价格 * 月请求数
使用GPT-4o-mini(输入$0.15,输出$0.60每百万令牌),每次请求1,000个令牌,10K MAU每天发3个请求:
10,000用户 * 3请求/天 * 30天 * 1,000令牌 = 9亿令牌/月 成本:4.5亿输入 $0.15/百万 + 4.5亿输出 $0.60/百万 = $67.50 + $270 = $337.50
这看起来可以承受。以下是为什么它是错的。
隐藏的乘数
乘数1:系统提示词按请求计费
你的系统提示词随每次API调用一起发送。它不会在请求间缓存(提示缓存可用但有特定要求且不适用于所有情况)。典型的移动应用系统提示词有800-1,500个令牌:
You are a helpful assistant for [App Name]. You help users with
[specific tasks]. Always respond in [format]. Never [constraints].
When the user asks about [topic], refer to [guidelines]...
以1,200个令牌计算,在10K MAU每天90K请求的情况下,这每月额外增加12亿个输入令牌。仅系统提示词在GPT-4o-mini上就额外增加$180/月。
乘数2:对话历史的累积
基于聊天的功能包含之前的消息作为上下文。输入成本随每轮增长:
| 轮次 | 输入令牌(累积) | 输出令牌 |
|---|---|---|
| 第1轮 | 1,200(系统)+ 200(用户)= 1,400 | 400 |
| 第2轮 | 1,400 + 400 + 200 = 2,000 | 400 |
| 第3轮 | 2,000 + 400 + 200 = 2,600 | 400 |
| 第4轮 | 2,600 + 400 + 200 = 3,200 | 400 |
| 第5轮 | 3,200 + 400 + 200 = 3,800 | 400 |
5轮对话的总输入令牌:13,000。粗略估算的5 * 200 = 1,000用户输入令牌低估了13倍。
乘数3:重试和错误处理
在规模化后,2-5%的API调用会失败。速率限制、超时、服务器错误。每次重试重新发送整个负载:系统提示词、对话历史和用户消息。总令牌数增加3-5%。
乘数4:RAG上下文注入
如果你使用检索增强生成来提供相关上下文(产品文档、知识库文章),每次注入在每个请求上增加500-3,000个令牌。这是在其他所有费用之上的。
真实乘数
当你把所有隐藏成本加在一起,真实令牌使用量通常是粗略估算的3-5倍。以下表格使用3倍作为保守乘数。
真实成本表
GPT-4o-mini ($0.15 / $0.60 每百万令牌)
| MAU | 粗略 | 真实(3倍) | 占$4.99/月收入的比例 |
|---|---|---|---|
| 500 | $17 | $51 | 2.0% |
| 1,000 | $34 | $101 | 2.0% |
| 5,000 | $169 | $506 | 2.0% |
| 10,000 | $338 | $1,013 | 2.0% |
| 50,000 | $1,688 | $5,063 | 2.0% |
| 100,000 | $3,375 | $10,125 | 2.0% |
GPT-4o ($2.50 / $10.00 每百万令牌)
| MAU | 粗略 | 真实(3倍) | 占$4.99/月收入的比例 |
|---|---|---|---|
| 500 | $281 | $844 | 33.8% |
| 1,000 | $563 | $1,688 | 33.8% |
| 5,000 | $2,813 | $8,438 | 33.8% |
| 10,000 | $5,625 | $16,875 | 33.8% |
| 50,000 | $28,125 | $84,375 | 33.8% |
| 100,000 | $56,250 | $168,750 | 33.8% |
百分比保持不变,因为收入和成本都随用户线性增长。如果AI在1K用户时吃掉2%的收入,在100K用户时也吃掉2%。如果吃掉34%,在每个规模都吃掉34%。变化的是绝对数字:$51/月可以忽略,$10,125/月是一笔严肃的支出。
真实公司的经历
这个模式有据可查:
Replit 据报道毛利率从+36%波动到-14%,原因是AI推理成本随使用量增长(Sacra, 2025)。他们的AI功能很受欢迎,成本随这种受欢迎程度一起增长。
Jasper 靠销售AI写作助手做到$120M ARR。其底层成本结构(按加价转售API令牌)限制了毛利率,并导致了显著的竞争压力。
Menlo Ventures 发现平均月度企业AI支出从2024年的$63K跳到2025年的$85.5K,一年内增长36%。成本趋势在加速。
70%的CIO将AI成本不可预测性列为首要采用障碍(Forrester, 2026)。这种不可预测性来自按令牌成本随使用量的线性增长。
结构性问题
从GPT-4o切换到GPT-4o-mini降低约15倍成本。这很有意义。但不改变结构。GPT-4o-mini的成本仍然随每个用户线性增长。曲线不那么陡了,但仍是一条向上的直线。
提示缓存、缩短系统提示词和限制响应长度等优化可以降低20-40%的成本。这些值得做。但它们是把线往下移,而不是改变斜率。
改变斜率的唯一方法是改变成本结构。从可变(按令牌)变为固定(按训练次数)。这就是端侧推理所做的。
替代方案:固定成本AI
在你的领域数据上微调小模型。导出为GGUF。在设备端发布。成本结构变化从:
云API: 每请求$0.0001-$0.01 * N次请求 = 随用户增长
端侧: $5-50一次性微调 + ~$0.08/GB CDN分发 = 不受用户数影响的固定成本
10K MAU时,端侧比云API每月节省$1,000-$16,000。100K MAU时,节省$10,000-$168,000每月。
回本来得很快。GPT-4o-mini在仅500 MAU时,月API成本($51)在第一个月就超过了一次性微调成本。GPT-4o在任何有实际用户量的情况下基本立即回本。
像Ertas这样的平台让微调过程变得可及:可视化界面,无需ML专业知识,上传数据,训练,导出GGUF,发布。障碍不再是技术,而是认知。
该做什么
从第一天起追踪你的真实API成本。不是粗略估算,而是供应商计费面板上的真实数字。计算每用户每月成本。
设一个阈值。当你的AI每用户成本超过$0.10/月,或总AI支出超过$500/月时,开始制定迁移计划。从API日志提取训练数据。微调。部署到设备端。A/B测试。
数学问题会自行解决。唯一的问题是你在它成为危机之前还是之后去解决它。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

AI API Pricing for Mobile: The Real Cost Per User
How to calculate the true cost of AI per mobile app user. Provider comparison, hidden multipliers, and the unit economics that determine whether your AI feature is sustainable.

Claude API vs OpenAI API for Mobile Apps
A side-by-side comparison of Anthropic's Claude and OpenAI's GPT models for mobile app integration. Pricing, rate limits, capabilities, and when neither is the right answer.

Fine-Tuning vs Prompt Engineering for Mobile Apps
Prompt engineering is fast and flexible. Fine-tuning is accurate and cheap at scale. Here is the practical comparison for mobile developers deciding between the two approaches.