Back to blog
    当应用获得用户时,你的AI API账单将增长10倍
    cost optimizationAPI pricingmobile AIscalingOpenAIsegment:mobile-builder

    当应用获得用户时,你的AI API账单将增长10倍

    大多数AI教程跳过的成本计算。你的API账单随每个用户线性增长,真实的乘数效应比定价页面显示的更糟。以下是1K、10K和100K MAU时会发生什么。

    EErtas Team·

    你构建了一个AI功能。效果很好。50个内测用户很喜欢它。月度API账单是$4.20。你发布了。

    你的应用被推荐。下载量暴增。你达到5,000月活用户。API账单到了:$1,687。下个月,10,000 MAU。账单:$3,375。再下个月,20,000 MAU。你现在每月在AI推理上花费$6,750。

    这不是失败。这是按令牌计费在规模化后可预测的数学结果。每个教程教你怎么调API,但没有一个给你看这条曲线。

    粗略估算

    大多数开发者这样计算API成本:

    每次请求的令牌数 * 每令牌价格 * 月请求数

    使用GPT-4o-mini(输入$0.15,输出$0.60每百万令牌),每次请求1,000个令牌,10K MAU每天发3个请求:

    10,000用户 * 3请求/天 * 30天 * 1,000令牌 = 9亿令牌/月 成本:4.5亿输入 $0.15/百万 + 4.5亿输出 $0.60/百万 = $67.50 + $270 = $337.50

    这看起来可以承受。以下是为什么它是错的。

    隐藏的乘数

    乘数1:系统提示词按请求计费

    你的系统提示词随每次API调用一起发送。它不会在请求间缓存(提示缓存可用但有特定要求且不适用于所有情况)。典型的移动应用系统提示词有800-1,500个令牌:

    You are a helpful assistant for [App Name]. You help users with
    [specific tasks]. Always respond in [format]. Never [constraints].
    When the user asks about [topic], refer to [guidelines]...
    

    以1,200个令牌计算,在10K MAU每天90K请求的情况下,这每月额外增加12亿个输入令牌。仅系统提示词在GPT-4o-mini上就额外增加$180/月。

    乘数2:对话历史的累积

    基于聊天的功能包含之前的消息作为上下文。输入成本随每轮增长:

    轮次输入令牌(累积)输出令牌
    第1轮1,200(系统)+ 200(用户)= 1,400400
    第2轮1,400 + 400 + 200 = 2,000400
    第3轮2,000 + 400 + 200 = 2,600400
    第4轮2,600 + 400 + 200 = 3,200400
    第5轮3,200 + 400 + 200 = 3,800400

    5轮对话的总输入令牌:13,000。粗略估算的5 * 200 = 1,000用户输入令牌低估了13倍。

    乘数3:重试和错误处理

    在规模化后,2-5%的API调用会失败。速率限制、超时、服务器错误。每次重试重新发送整个负载:系统提示词、对话历史和用户消息。总令牌数增加3-5%。

    乘数4:RAG上下文注入

    如果你使用检索增强生成来提供相关上下文(产品文档、知识库文章),每次注入在每个请求上增加500-3,000个令牌。这是在其他所有费用之上的。

    真实乘数

    当你把所有隐藏成本加在一起,真实令牌使用量通常是粗略估算的3-5倍。以下表格使用3倍作为保守乘数。

    真实成本表

    GPT-4o-mini ($0.15 / $0.60 每百万令牌)

    MAU粗略真实(3倍)占$4.99/月收入的比例
    500$17$512.0%
    1,000$34$1012.0%
    5,000$169$5062.0%
    10,000$338$1,0132.0%
    50,000$1,688$5,0632.0%
    100,000$3,375$10,1252.0%

    GPT-4o ($2.50 / $10.00 每百万令牌)

    MAU粗略真实(3倍)占$4.99/月收入的比例
    500$281$84433.8%
    1,000$563$1,68833.8%
    5,000$2,813$8,43833.8%
    10,000$5,625$16,87533.8%
    50,000$28,125$84,37533.8%
    100,000$56,250$168,75033.8%

    百分比保持不变,因为收入和成本都随用户线性增长。如果AI在1K用户时吃掉2%的收入,在100K用户时也吃掉2%。如果吃掉34%,在每个规模都吃掉34%。变化的是绝对数字:$51/月可以忽略,$10,125/月是一笔严肃的支出。

    真实公司的经历

    这个模式有据可查:

    Replit 据报道毛利率从+36%波动到-14%,原因是AI推理成本随使用量增长(Sacra, 2025)。他们的AI功能很受欢迎,成本随这种受欢迎程度一起增长。

    Jasper 靠销售AI写作助手做到$120M ARR。其底层成本结构(按加价转售API令牌)限制了毛利率,并导致了显著的竞争压力。

    Menlo Ventures 发现平均月度企业AI支出从2024年的$63K跳到2025年的$85.5K,一年内增长36%。成本趋势在加速。

    70%的CIO将AI成本不可预测性列为首要采用障碍(Forrester, 2026)。这种不可预测性来自按令牌成本随使用量的线性增长。

    结构性问题

    从GPT-4o切换到GPT-4o-mini降低约15倍成本。这很有意义。但不改变结构。GPT-4o-mini的成本仍然随每个用户线性增长。曲线不那么陡了,但仍是一条向上的直线。

    提示缓存、缩短系统提示词和限制响应长度等优化可以降低20-40%的成本。这些值得做。但它们是把线往下移,而不是改变斜率。

    改变斜率的唯一方法是改变成本结构。从可变(按令牌)变为固定(按训练次数)。这就是端侧推理所做的。

    替代方案:固定成本AI

    在你的领域数据上微调小模型。导出为GGUF。在设备端发布。成本结构变化从:

    云API: 每请求$0.0001-$0.01 * N次请求 = 随用户增长

    端侧: $5-50一次性微调 + ~$0.08/GB CDN分发 = 不受用户数影响的固定成本

    10K MAU时,端侧比云API每月节省$1,000-$16,000。100K MAU时,节省$10,000-$168,000每月。

    回本来得很快。GPT-4o-mini在仅500 MAU时,月API成本($51)在第一个月就超过了一次性微调成本。GPT-4o在任何有实际用户量的情况下基本立即回本。

    像Ertas这样的平台让微调过程变得可及:可视化界面,无需ML专业知识,上传数据,训练,导出GGUF,发布。障碍不再是技术,而是认知。

    该做什么

    从第一天起追踪你的真实API成本。不是粗略估算,而是供应商计费面板上的真实数字。计算每用户每月成本。

    设一个阈值。当你的AI每用户成本超过$0.10/月,或总AI支出超过$500/月时,开始制定迁移计划。从API日志提取训练数据。微调。部署到设备端。A/B测试。

    数学问题会自行解决。唯一的问题是你在它成为危机之前还是之后去解决它。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading