停止为 AI 按用户付费：独立应用的固定成本架构

大多数 AI 驱动的 SaaS 应用有一个肮脏的秘密：每个新用户都会让业务利润降低。不是抽象的"服务器总要花钱「的意义，而是非常具体的」每个 AI 请求花费 $0.003，我的平均用户每天发出 45 个请求"的意义，这会吞噬你的利润。

传统 SaaS 的边际成本接近零。增加第 10,001 个用户基本不花什么钱——服务器已经在运行，代码已经写好了。AI 驱动的 SaaS 打破了这个模式。按 token 定价意味着每个用户都会使你的 AI 账单大致等比例增长。你的收入随用户数扩展。你的 AI 成本也随用户数扩展。如果每用户 AI 成本接近每用户收入，你的业务会随着成功而变得更糟。

有一种更好的架构。一种无论你有 100 个用户还是 100,000 个用户，AI 基础设施成本都相同的架构。这不是理论——它今天已经在那些早早算清账的独立开发者的生产环境中运行。本指南解释它是什么、如何构建它，以及它在何时适用和不适用。

按用户成本问题

让我们把问题具体化。你构建了一个 AI 驱动的应用——比如一个内容优化工具。每个用户提交文本，AI 分析它，返回建议。标准操作。你每月每用户收费 $19。

以下是你随着增长的 AI 成本，假设 GPT-4o 定价和中等使用量（每用户每天 30 个 AI 请求，平均每请求 1,000 输入 token 和 500 输出 token）：

用户	每日 AI 请求	月输入 Token	月输出 Token	月 AI 成本	收入	AI 成本占收入比
100	3,000	90M	45M	$67	$1,900	3.5%
1,000	30,000	900M	450M	$675	$19,000	3.6%
10,000	300,000	9B	4.5B	$6,750	$190,000	3.6%
50,000	1,500,000	45B	22.5B	$33,750	$950,000	3.6%

3.6% 的收入看起来可控。但这是乐观场景。实际上：

重度用户破坏你的平均值。 前 10% 的用户产生 40-60% 的 AI 请求。"每用户每天 30 个请求"的平均值掩盖了一个重度使用的长尾。

提示链式调用倍增 token。 Agent 风格的功能、重试逻辑和多步骤工作流可以使每个用户操作的 token 数增加 2-5 倍。

上下文窗口随时间增长。 随着用户在你的应用中建立历史，提示变得更长。

更现实的情况下，AI 成本占收入的 10%。对于没有风投资金的独立开发者，这是毛利率的巨大消耗。

"固定成本"意味着什么

固定成本 AI 架构是一种 AI 推理成本由基础设施而非使用量决定的架构。你为服务器付费，而不是为 token 付费。无论这些服务器每月处理 1,000 个还是 100,000 个请求，基础设施成本都是相同的。

核心思想很简单：不是将每个 AI 请求发送到按 token 收费的 API，而是在你控制的硬件上自己运行 AI 模型。

这只有因为 2025-2026 年三个发展的汇聚才可行：

小型开源模型变得足够好了。 Qwen 2.5 7B、Llama 3.3 8B 和类似模型在 fine-tuned 后可以处理大多数特定应用的 AI 任务。
Fine-tuning 变得可及。 Ertas 等工具让非 ML 开发者在不到一小时内就能 fine-tune 模型。
本地推理变快了。 Ollama 和 llama.cpp 使得在普通硬件上以 15-30 token/秒运行量化 7B 模型成为可能。

架构

┌──────────────────────────────────────────────┐
│  你的应用 (Frontend + API)                    │
│  托管在 Vercel / Railway / Fly.io             │
└────────────────────┬─────────────────────────┘
                     │
          ┌──────────┴──────────┐
          │                     │
          ▼                     ▼
   ┌────────────┐     ┌──────────────────┐
   │  请求       │     │  数据库           │
   │  路由器     │     │  (Supabase/Neon)  │
   │             │     └──────────────────┘
   └──┬──────┬──┘
      │      │
  95% │      │ 5%
      ▼      ▼
┌──────────┐ ┌──────────┐
│  Ollama   │ │ OpenAI   │
│  (本地)   │ │ API      │
│  $30/月   │ │ (仅备用) │
│  固定     │ │          │
└──────────┘ └──────────┘

组件 1：Fine-Tuned 小模型

固定成本 AI 的基础是使用专门为你的用例训练的模型，而不是通用前沿模型。

一个在你特定任务的 1,000 个示例上 fine-tuned 的 7B 参数模型大约 90-95% 的时间能匹配 GPT-4 的性能。对于剩余的 5-10% 边缘情况，你有备用方案。

组件 2：使用 Ollama 本地推理

Ollama 是将你的 fine-tuned 模型作为本地 API 服务的运行时。安装在 VPS 上，加载你的模型，应用的每个 AI 请求都在本地提供服务，每 token 零成本。

一台 $26/月的 Hetzner VPS 运行带量化 7B 模型的 Ollama，每秒处理 15-25 个 token。对于典型应用，这意味着每天 170,000 到 345,000 个请求。

组件 3：智能请求路由

async function aiRequest(input: string): Promise<string> {
  try {
    const localResponse = await fetch("http://ollama-vps:11434/api/generate", {
      method: "POST",
      body: JSON.stringify({
        model: "my-fine-tuned-model",
        prompt: input,
        stream: false,
      }),
      signal: AbortSignal.timeout(10000),
    });

    const result = await localResponse.json();

    if (isValidResponse(result.response)) {
      return result.response;
    }

    return await openaiRequest(input);
  } catch (error) {
    return await openaiRequest(input);
  }
}

关键洞察：你不需要在第一天就 100% 本地处理。从 80% 本地开始并迭代。每月查看回退到 API 的请求，将它们添加到训练数据中，重新训练并部署更新的模型。

组件 4：水平扩展

用户	VPS 实例	总 VPS 成本	每用户月 AI 成本
1,000	1x CX42	$26	$0.026
10,000	2x CX42	$52	$0.005
50,000	5x CX42	$130	$0.003
100,000	8x CX42	$208	$0.002

在 100,000 用户时，你每月每用户支付 $0.002 的 AI 推理费。使用 OpenAI API 在同等规模下，你大约支付每用户每月 $0.68。

这是 340 倍的成本差异。

固定成本不适用的场景

实时多模态任务。 视觉模型需要大量 VRAM 的 GPU。

前沿推理任务。 如果你的应用确实需要 GPT-4 或 Claude 级别的推理。

极其多样的任务集。 如果你的 AI 功能处理数百种根本不同的任务类型。

非常早期阶段。 如果你还在迭代 AI 功能的定义。

底线

按 token AI 定价创建了一种成功惩罚你的商业模式。固定成本架构打破了这种耦合。$26/月的 VPS 为 5,000 用户提供零 token 费用的服务。在 50,000 用户时，五个 VPS 实例总共 $130/月取代了原本 $33,750/月的 API 调用。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

停止为 AI 按用户付费：独立应用的固定成本架构

按用户成本问题

"固定成本"意味着什么

架构

组件 1：Fine-Tuned 小模型

组件 2：使用 Ollama 本地推理

组件 3：智能请求路由

组件 4：水平扩展

固定成本不适用的场景

底线

延伸阅读

Ship AI that runs on your users' devices.

Keep reading

用 $50/月构建 AI SaaS：微调本地技术栈

你的Vibe编码应用达到了1,000用户——然后呢？

你的Vibe编码应用达到了10K用户。现在你的AI账单是$3K/月。