当应用获得用户时，你的AI API账单将增长10倍

你构建了一个AI功能。效果很好。50个内测用户很喜欢它。月度API账单是$4.20。你发布了。

你的应用被推荐。下载量暴增。你达到5,000月活用户。API账单到了：$1,687。下个月，10,000 MAU。账单：$3,375。再下个月，20,000 MAU。你现在每月在AI推理上花费$6,750。

这不是失败。这是按令牌计费在规模化后可预测的数学结果。每个教程教你怎么调API，但没有一个给你看这条曲线。

粗略估算

大多数开发者这样计算API成本：

每次请求的令牌数 * 每令牌价格 * 月请求数

使用GPT-4o-mini（输入$0.15，输出$0.60每百万令牌），每次请求1,000个令牌，10K MAU每天发3个请求：

10,000用户 * 3请求/天 * 30天 * 1,000令牌 = 9亿令牌/月成本：4.5亿输入 $0.15/百万 + 4.5亿输出 $0.60/百万 = $67.50 + $270 = $337.50

这看起来可以承受。以下是为什么它是错的。

隐藏的乘数

乘数1：系统提示词按请求计费

你的系统提示词随每次API调用一起发送。它不会在请求间缓存（提示缓存可用但有特定要求且不适用于所有情况）。典型的移动应用系统提示词有800-1,500个令牌：

You are a helpful assistant for [App Name]. You help users with
[specific tasks]. Always respond in [format]. Never [constraints].
When the user asks about [topic], refer to [guidelines]...

以1,200个令牌计算，在10K MAU每天90K请求的情况下，这每月额外增加12亿个输入令牌。仅系统提示词在GPT-4o-mini上就额外增加$180/月。

乘数2：对话历史的累积

基于聊天的功能包含之前的消息作为上下文。输入成本随每轮增长：

轮次	输入令牌（累积）	输出令牌
第1轮	1,200（系统）+ 200（用户）= 1,400	400
第2轮	1,400 + 400 + 200 = 2,000	400
第3轮	2,000 + 400 + 200 = 2,600	400
第4轮	2,600 + 400 + 200 = 3,200	400
第5轮	3,200 + 400 + 200 = 3,800	400

5轮对话的总输入令牌：13,000。粗略估算的5 * 200 = 1,000用户输入令牌低估了13倍。

乘数3：重试和错误处理

在规模化后，2-5%的API调用会失败。速率限制、超时、服务器错误。每次重试重新发送整个负载：系统提示词、对话历史和用户消息。总令牌数增加3-5%。

乘数4：RAG上下文注入

如果你使用检索增强生成来提供相关上下文（产品文档、知识库文章），每次注入在每个请求上增加500-3,000个令牌。这是在其他所有费用之上的。

真实乘数

当你把所有隐藏成本加在一起，真实令牌使用量通常是粗略估算的3-5倍。以下表格使用3倍作为保守乘数。

真实成本表

GPT-4o-mini ($0.15 / $0.60 每百万令牌)

MAU	粗略	真实（3倍）	占$4.99/月收入的比例
500	$17	$51	2.0%
1,000	$34	$101	2.0%
5,000	$169	$506	2.0%
10,000	$338	$1,013	2.0%
50,000	$1,688	$5,063	2.0%
100,000	$3,375	$10,125	2.0%

GPT-4o ($2.50 / $10.00 每百万令牌)

MAU	粗略	真实（3倍）	占$4.99/月收入的比例
500	$281	$844	33.8%
1,000	$563	$1,688	33.8%
5,000	$2,813	$8,438	33.8%
10,000	$5,625	$16,875	33.8%
50,000	$28,125	$84,375	33.8%
100,000	$56,250	$168,750	33.8%

百分比保持不变，因为收入和成本都随用户线性增长。如果AI在1K用户时吃掉2%的收入，在100K用户时也吃掉2%。如果吃掉34%，在每个规模都吃掉34%。变化的是绝对数字：$51/月可以忽略，$10,125/月是一笔严肃的支出。

真实公司的经历

这个模式有据可查：

Replit 据报道毛利率从+36%波动到-14%，原因是AI推理成本随使用量增长（Sacra, 2025）。他们的AI功能很受欢迎，成本随这种受欢迎程度一起增长。

Jasper 靠销售AI写作助手做到$120M ARR。其底层成本结构（按加价转售API令牌）限制了毛利率，并导致了显著的竞争压力。

Menlo Ventures 发现平均月度企业AI支出从2024年的$63K跳到2025年的$85.5K，一年内增长36%。成本趋势在加速。

70%的CIO将AI成本不可预测性列为首要采用障碍（Forrester, 2026）。这种不可预测性来自按令牌成本随使用量的线性增长。

结构性问题

从GPT-4o切换到GPT-4o-mini降低约15倍成本。这很有意义。但不改变结构。GPT-4o-mini的成本仍然随每个用户线性增长。曲线不那么陡了，但仍是一条向上的直线。

提示缓存、缩短系统提示词和限制响应长度等优化可以降低20-40%的成本。这些值得做。但它们是把线往下移，而不是改变斜率。

改变斜率的唯一方法是改变成本结构。从可变（按令牌）变为固定（按训练次数）。这就是端侧推理所做的。

替代方案：固定成本AI

在你的领域数据上微调小模型。导出为GGUF。在设备端发布。成本结构变化从：

云API： 每请求$0.0001-$0.01 * N次请求 = 随用户增长

端侧： $5-50一次性微调 + ~$0.08/GB CDN分发 = 不受用户数影响的固定成本

10K MAU时，端侧比云API每月节省$1,000-$16,000。100K MAU时，节省$10,000-$168,000每月。

回本来得很快。GPT-4o-mini在仅500 MAU时，月API成本（$51）在第一个月就超过了一次性微调成本。GPT-4o在任何有实际用户量的情况下基本立即回本。

像Ertas这样的平台让微调过程变得可及：可视化界面，无需ML专业知识，上传数据，训练，导出GGUF，发布。障碍不再是技术，而是认知。

该做什么

从第一天起追踪你的真实API成本。不是粗略估算，而是供应商计费面板上的真实数字。计算每用户每月成本。

设一个阈值。当你的AI每用户成本超过$0.10/月，或总AI支出超过$500/月时，开始制定迁移计划。从API日志提取训练数据。微调。部署到设备端。A/B测试。

数学问题会自行解决。唯一的问题是你在它成为危机之前还是之后去解决它。