
当应用获得用户时,你的AI API账单将增长10倍
大多数AI教程跳过的成本计算。你的API账单随每个用户线性增长,真实的乘数效应比定价页面显示的更糟。以下是1K、10K和100K MAU时会发生什么。
你构建了一个AI功能。 效果很好。50个内测用户很喜欢它。月度API账单是$4.20。你发布了。
你的应用被推荐。下载量暴增。你达到5,000月活用户。API账单到了:$1,687。下个月,10,000 MAU。账单:$3,375。再下个月,20,000 MAU。你现在每月在AI推理上花费$6,750。
这不是失败。这是按令牌计费在规模化后可预测的数学结果。每个教程教你怎么调API,但没有一个给你看这条曲线。
粗略估算
大多数开发者这样计算API成本:
每次请求的令牌数 * 每令牌价格 * 月请求数
使用GPT-4o-mini(输入$0.15,输出$0.60每百万令牌),每次请求1,000个令牌,10K MAU每天发3个请求:
10,000用户 * 3请求/天 * 30天 * 1,000令牌 = 9亿令牌/月 成本:4.5亿输入 $0.15/百万 + 4.5亿输出 $0.60/百万 = $67.50 + $270 = $337.50
这看起来可以承受。以下是为什么它是错的。
隐藏的乘数
乘数1:系统提示词按请求计费
你的系统提示词随每次API调用一起发送。它不会在请求间缓存(提示缓存可用但有特定要求且不适用于所有情况)。典型的移动应用系统提示词有800-1,500个令牌:
You are a helpful assistant for [App Name]. You help users with
[specific tasks]. Always respond in [format]. Never [constraints].
When the user asks about [topic], refer to [guidelines]...
以1,200个令牌计算,在10K MAU每天90K请求的情况下,这每月额外增加12亿个输入令牌。仅系统提示词在GPT-4o-mini上就额外增加$180/月。
乘数2:对话历史的累积
基于聊天的功能包含之前的消息作为上下文。输入成本随每轮增长:
| 轮次 | 输入令牌(累积) | 输出令牌 |
|---|---|---|
| 第1轮 | 1,200(系统)+ 200(用户)= 1,400 | 400 |
| 第2轮 | 1,400 + 400 + 200 = 2,000 | 400 |
| 第3轮 | 2,000 + 400 + 200 = 2,600 | 400 |
| 第4轮 | 2,600 + 400 + 200 = 3,200 | 400 |
| 第5轮 | 3,200 + 400 + 200 = 3,800 | 400 |
5轮对话的总输入令牌:13,000。粗略估算的5 * 200 = 1,000用户输入令牌低估了13倍。
乘数3 :重试和错误处理
在规模化后,2-5%的API调用会失败。速率限制、超时、服务器错误。每次重试重新发送整个负载:系统提示词、对话历史和用户消息。总令牌数增加3-5%。
乘数4:RAG上下文注入
如果你使用检索增强生成来提供相关上下文(产品文档、知识库文章),每次注入在每个请求上增加500-3,000个令牌。这是在其他所有费用之上的。
真实乘数
当你把所有隐藏成本加在一起,真实令牌使用量通常是粗略估算的3-5倍。以下表格使用3倍作为保守乘数。
真实成本表
GPT-4o-mini ($0.15 / $0.60 每百万令 牌)
| MAU | 粗略 | 真实(3倍) | 占$4.99/月收入的比例 |
|---|---|---|---|
| 500 | $17 | $51 | 2.0% |
| 1,000 | $34 | $101 | 2.0% |
| 5,000 | $169 | $506 | 2.0% |
| 10,000 | $338 | $1,013 | 2.0% |
| 50,000 | $1,688 | $5,063 | 2.0% |
| 100,000 | $3,375 | $10,125 | 2.0% |
GPT-4o ($2.50 / $10.00 每百万令牌)
| MAU | 粗略 | 真实(3倍) | 占$4.99/月收入的比例 |
|---|---|---|---|
| 500 | $281 | $844 | 33.8% |
| 1,000 | $563 | $1,688 | 33.8% |
| 5,000 | $2,813 | $8,438 | 33.8% |
| 10,000 | $5,625 | $16,875 | 33.8% |
| 50,000 | $28,125 | $84,375 | 33.8% |
| 100,000 | $56,250 | $168,750 | 33.8% |
百分比保持不变,因为收入和成本都随用户线性增长。如果AI在1K用户时吃掉2%的收入,在100K用户时也吃掉2%。如果吃掉34%,在每个规模都吃掉34%。变化的是绝对数字:$51/月可以忽略,$10,125/月是一笔严肃的支出。
真实公司的经历
这个模式有据可查:
Replit 据报道毛利率从+36%波动到-14%,原因是AI推理成本随使用量增长(Sacra, 2025)。他们的AI 功能很受欢迎,成本随这种受欢迎程度一起增长。
Jasper 靠销售AI写作助手做到$120M ARR。其底层成本结构(按加价转售API令牌)限制了毛利率,并导致了显著的竞争压力。
Menlo Ventures 发现平均月度企业AI支出从2024年的$63K跳到2025年的$85.5K,一年内增长36%。成本趋势在加速。
70%的CIO将AI成本不可预测性列为首要采用障碍(Forrester, 2026)。这种不可预测性来自按令牌成本随使用量的线性增长。
结构性问题
从GPT-4o切换到GPT-4o-mini降低约15倍成本。这很有意义。但不改变结构。GPT-4o-mini的成本仍然随每个用户线性增长。曲线不那么陡了,但仍是一条向上的直线。
提示缓存、缩短系统提示词和限制响应长度等优化可以降低20-40%的成本。这些值得做。但它们是把线往下移,而不是改变斜率。
改变斜率的唯一方法是改变成本结构。从可变(按令牌)变为固定(按训练次数)。这就是端侧推理所做的。
替代方案:固定成本AI
在你的领域数据上微调小模型。导出为GGUF。在设备端发布。成本结构变化从:
云API: 每请求$0.0001-$0.01 * N次请求 = 随用户增长
端侧: $5-50一次性微调 + ~$0.08/GB CDN分发 = 不受用户数影响的固定成本
10K MAU时,端侧比云API每月节省$1,000-$16,000。100K MAU时,节省$10,000-$168,000每月。
回本来得很快。GPT-4o-mini在仅500 MAU时,月API成本($51)在第一个月就超过了一次性微调成本。GPT-4o在任何有实际用户量的情况下基本立即回本。
像Ertas这样的平台让微调过程变得可及:可视化界面,无需ML专业知识,上传数据,训练,导出GGUF,发布。障碍不再是技术,而是认知。
该做什么
从第一天起追踪你的真实API成本。不是粗略估算,而是供应商计费面板上的真实数字。计算每用户每月成本。
设一个阈值。当你的AI每用户成本超过$0.10/月,或总AI支出超过$500/月时,开始制定迁移计划。从API日志提取训练数据。微调。部署到设备端。A/B测试。
数学问题会自行解决。唯一的问题是你在它成为危机之前还是之后去解决它。
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.


