
停止为 AI 按用户付费:独立应用的固定成本架构
每个新用户不应该意味着更高的 AI 账单。这是一种将用户数量与 AI 成本永久解耦的架构模式。
大多数 AI 驱动的 SaaS 应用有一个肮脏的秘密:每个新用户都会让业务利润降低。不是抽象的"服务器总要花钱「的意义,而是非常具体的」每个 AI 请求花费 $0.003,我的平均用户每天发出 45 个请求"的意义,这会吞噬你的利润。
传统 SaaS 的边际成本接近零。增加第 10,001 个用户基本不花什么钱——服务器已经在运行,代码已经写好了。AI 驱动的 SaaS 打破了这个模式。按 token 定价意味着每个用户都会使你的 AI 账单大致等比例增长。你的收入随用户数扩展。你的 AI 成本也随用户数扩展。如果每用户 AI 成本接近每用户收入,你的业务会随着成功而变得更糟。
有一种更好的架构。一种无论你有 100 个用户还是 100,000 个用户,AI 基础设施成本都相同的架构。这不是理论——它今天已经在那些早早算清账的独立开发者的生产环境中运行。本指南解释它是什么、如何构建它,以及它在何时适用和不适用。
按用户成本问题
让我们把问题具体化。你构建了一个 AI 驱动的应用——比如一个内容优化工具。每个用户提交文本,AI 分析它,返回建议。标准操作。你每月每用户收费 $19。
以下是你随着增长的 AI 成本,假设 GPT-4o 定价和中等使用量(每用户每天 30 个 AI 请求,平均每请求 1,000 输入 token 和 500 输出 token):
| 用户 | 每日 AI 请求 | 月输入 Token | 月输出 Token | 月 AI 成本 | 收入 | AI 成本占收入比 |
|---|---|---|---|---|---|---|
| 100 | 3,000 | 90M | 45M | $67 | $1,900 | 3.5% |
| 1,000 | 30,000 | 900M | 450M | $675 | $19,000 | 3.6% |
| 10,000 | 300,000 | 9B | 4.5B | $6,750 | $190,000 | 3.6% |
| 50,000 | 1,500,000 | 45B | 22.5B | $33,750 | $950,000 | 3.6% |
3.6% 的收入看起来可控。但这是乐观场景。实际上:
重度用户破坏你的平均值。 前 10% 的用户产生 40-60% 的 AI 请求。"每用户每天 30 个请求"的平均值掩盖了一个重度使用的长尾。
提示链式调用倍增 token。 Agent 风格的功能、重试逻辑和多步骤工作流可以使每个用户操作的 token 数增加 2-5 倍。
上下文窗口随时间增长。 随着用户在你的应用中建立历史,提示变得更长。
更现实的情况下,AI 成本占收入的 10%。对于没有风投资金的独立开发者,这是毛利率的巨大消耗。
"固定成本"意味着什么
固定成本 AI 架构是一种 AI 推理成本由基础设施而非使用量决定的架构。你为服务器付费,而不是为 token 付费。无论这些服务器每月处理 1,000 个还是 100,000 个请求,基础设施成本都是相同的。
核心思想很简单:不是将每个 AI 请求发送到按 token 收费的 API,而是在你控制的硬件上自己运行 AI 模型。
这只有因为 2025-2026 年三个发展的汇聚才可行:
- 小型开源模型变得足够好了。 Qwen 2.5 7B、Llama 3.3 8B 和类似模型在 fine-tuned 后可以处理大多数特定应用的 AI 任务。
- Fine-tuning 变得可及。 Ertas 等工具让非 ML 开发者在不到一小时内就能 fine-tune 模型。
- 本地推理变快了。 Ollama 和 llama.cpp 使得在普通硬件上以 15-30 token/秒运行量化 7B 模型成为可能。
架构
┌──────────────────────────────────────────────┐
│ 你的应用 (Frontend + API) │
│ 托管在 Vercel / Railway / Fly.io │
└────────────────────┬─────────────────────────┘
│
┌──────────┴──────────┐
│ │
▼ ▼
┌────────────┐ ┌──────────────────┐
│ 请求 │ │ 数据库 │
│ 路由器 │ │ (Supabase/Neon) │
│ │ └──────────────────┘
└──┬──────┬──┘
│ │
95% │ │ 5%
▼ ▼
┌──────────┐ ┌──────────┐
│ Ollama │ │ OpenAI │
│ (本地) │ │ API │
│ $30/月 │ │ (仅备用) │
│ 固定 │ │ │
└──────────┘ └──────────┘
组件 1:Fine-Tuned 小模型
固定成本 AI 的基础是使用专门为你的用例训练的模型,而不是通用前沿模型。
一个在你特定任务的 1,000 个示例上 fine-tuned 的 7B 参数模型大约 90-95% 的时间能匹配 GPT-4 的性能。对于剩余的 5-10% 边缘情况,你有备用方案。
组件 2:使用 Ollama 本地推理
Ollama 是将你的 fine-tuned 模型作为本地 API 服务的运行时。安装在 VPS 上,加载你的模型,应用的每个 AI 请求都在本地提供服务,每 token 零成本。
一台 $26/月的 Hetzner VPS 运行带量化 7B 模型的 Ollama,每秒处理 15-25 个 token。对于典型应用,这意味着每天 170,000 到 345,000 个请求。
组件 3:智能请求路由
async function aiRequest(input: string): Promise<string> {
try {
const localResponse = await fetch("http://ollama-vps:11434/api/generate", {
method: "POST",
body: JSON.stringify({
model: "my-fine-tuned-model",
prompt: input,
stream: false,
}),
signal: AbortSignal.timeout(10000),
});
const result = await localResponse.json();
if (isValidResponse(result.response)) {
return result.response;
}
return await openaiRequest(input);
} catch (error) {
return await openaiRequest(input);
}
}
关键洞察:你不需要在第一天就 100% 本地处理。从 80% 本地开始并迭代。每月查看回退到 API 的请求,将它们添加到训练数据中,重新训练并部署更新的模型。
组件 4:水平扩展
| 用户 | VPS 实例 | 总 VPS 成本 | 每用户月 AI 成本 |
|---|---|---|---|
| 1,000 | 1x CX42 | $26 | $0.026 |
| 10,000 | 2x CX42 | $52 | $0.005 |
| 50,000 | 5x CX42 | $130 | $0.003 |
| 100,000 | 8x CX42 | $208 | $0.002 |
在 100,000 用户时,你每月每用户支付 $0.002 的 AI 推理费。使用 OpenAI API 在同等规模下,你大约支付每用户每月 $0.68。
这是 340 倍的成本差异。
固定成本不适用的场景
实时多模态任务。 视觉模型需要大量 VRAM 的 GPU。
前沿推理任务。 如果你的应用确实需要 GPT-4 或 Claude 级别的推理。
极其多样的任务集。 如果你的 AI 功能处理数百种根本不同的任务类型。
非常早期阶段。 如果你还在迭代 AI 功能的定义。
底线
按 token AI 定价创建了一种成功惩罚你的 商业模式。固定成本架构打破了这种耦合。$26/月的 VPS 为 5,000 用户提供零 token 费用的服务。在 50,000 用户时,五个 VPS 实例总共 $130/月取代了原本 $33,750/月的 API 调用。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
延伸阅读
- 2026 年独立开发者 AI 模型成本 — 独立开发者 AI 实际成本的全面分析。
- 独立应用的自托管 AI — 为什么自托管 AI 推理是最大的利 润杠杆。
- SaaS AI 功能的规模化成本 — AI 功能成本随 SaaS 增长的变化。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Your Vibe-Coded App Hit 1,000 Users — Now What?
You shipped fast with Cursor and Bolt. Users love it. But your OpenAI bill just crossed $200/month and it's climbing. Here's the cost survival guide for vibe-coded apps hitting real scale.

From Prototype to Product: Replacing API Calls with Fine-Tuned Models
Your Lovable/Bolt prototype works. Users are signing up. But every API call eats your margin. Here's the step-by-step playbook for migrating from cloud APIs to fine-tuned local models in production.

The Vibecoder's Guide to AI Unit Economics: When Free Tiers Stop Being Free
OpenAI's free tier got you started. But at scale, you're spending $5K/month on Opus for tasks Haiku could handle. Here's how to think about AI costs like a founder, not a hobbyist.