Back to blog
    停止为 AI 按用户付费:独立应用的固定成本架构
    架构indie-dev成本削减扩展segment:vibecoder

    停止为 AI 按用户付费:独立应用的固定成本架构

    每个新用户不应该意味着更高的 AI 账单。这是一种将用户数量与 AI 成本永久解耦的架构模式。

    EErtas Team·

    大多数 AI 驱动的 SaaS 应用有一个肮脏的秘密:每个新用户都会让业务利润降低。不是抽象的"服务器总要花钱「的意义,而是非常具体的」每个 AI 请求花费 $0.003,我的平均用户每天发出 45 个请求"的意义,这会吞噬你的利润。

    传统 SaaS 的边际成本接近零。增加第 10,001 个用户基本不花什么钱——服务器已经在运行,代码已经写好了。AI 驱动的 SaaS 打破了这个模式。按 token 定价意味着每个用户都会使你的 AI 账单大致等比例增长。你的收入随用户数扩展。你的 AI 成本也随用户数扩展。如果每用户 AI 成本接近每用户收入,你的业务会随着成功而变得更糟。

    有一种更好的架构。一种无论你有 100 个用户还是 100,000 个用户,AI 基础设施成本都相同的架构。这不是理论——它今天已经在那些早早算清账的独立开发者的生产环境中运行。本指南解释它是什么、如何构建它,以及它在何时适用和不适用。

    按用户成本问题

    让我们把问题具体化。你构建了一个 AI 驱动的应用——比如一个内容优化工具。每个用户提交文本,AI 分析它,返回建议。标准操作。你每月每用户收费 $19。

    以下是你随着增长的 AI 成本,假设 GPT-4o 定价和中等使用量(每用户每天 30 个 AI 请求,平均每请求 1,000 输入 token 和 500 输出 token):

    用户每日 AI 请求月输入 Token月输出 Token月 AI 成本收入AI 成本占收入比
    1003,00090M45M$67$1,9003.5%
    1,00030,000900M450M$675$19,0003.6%
    10,000300,0009B4.5B$6,750$190,0003.6%
    50,0001,500,00045B22.5B$33,750$950,0003.6%

    3.6% 的收入看起来可控。但这是乐观场景。实际上:

    重度用户破坏你的平均值。 前 10% 的用户产生 40-60% 的 AI 请求。"每用户每天 30 个请求"的平均值掩盖了一个重度使用的长尾。

    提示链式调用倍增 token。 Agent 风格的功能、重试逻辑和多步骤工作流可以使每个用户操作的 token 数增加 2-5 倍。

    上下文窗口随时间增长。 随着用户在你的应用中建立历史,提示变得更长。

    更现实的情况下,AI 成本占收入的 10%。对于没有风投资金的独立开发者,这是毛利率的巨大消耗。

    "固定成本"意味着什么

    固定成本 AI 架构是一种 AI 推理成本由基础设施而非使用量决定的架构。你为服务器付费,而不是为 token 付费。无论这些服务器每月处理 1,000 个还是 100,000 个请求,基础设施成本都是相同的。

    核心思想很简单:不是将每个 AI 请求发送到按 token 收费的 API,而是在你控制的硬件上自己运行 AI 模型。

    这只有因为 2025-2026 年三个发展的汇聚才可行:

    1. 小型开源模型变得足够好了。 Qwen 2.5 7B、Llama 3.3 8B 和类似模型在 fine-tuned 后可以处理大多数特定应用的 AI 任务。
    2. Fine-tuning 变得可及。 Ertas 等工具让非 ML 开发者在不到一小时内就能 fine-tune 模型。
    3. 本地推理变快了。 Ollama 和 llama.cpp 使得在普通硬件上以 15-30 token/秒运行量化 7B 模型成为可能。

    架构

    ┌──────────────────────────────────────────────┐
    │  你的应用 (Frontend + API)                    │
    │  托管在 Vercel / Railway / Fly.io             │
    └────────────────────┬─────────────────────────┘
                         │
              ┌──────────┴──────────┐
              │                     │
              ▼                     ▼
       ┌────────────┐     ┌──────────────────┐
       │  请求       │     │  数据库           │
       │  路由器     │     │  (Supabase/Neon)  │
       │             │     └──────────────────┘
       └──┬──────┬──┘
          │      │
      95% │      │ 5%
          ▼      ▼
    ┌──────────┐ ┌──────────┐
    │  Ollama   │ │ OpenAI   │
    │  (本地)   │ │ API      │
    │  $30/月   │ │ (仅备用) │
    │  固定     │ │          │
    └──────────┘ └──────────┘
    

    组件 1:Fine-Tuned 小模型

    固定成本 AI 的基础是使用专门为你的用例训练的模型,而不是通用前沿模型。

    一个在你特定任务的 1,000 个示例上 fine-tuned 的 7B 参数模型大约 90-95% 的时间能匹配 GPT-4 的性能。对于剩余的 5-10% 边缘情况,你有备用方案。

    组件 2:使用 Ollama 本地推理

    Ollama 是将你的 fine-tuned 模型作为本地 API 服务的运行时。安装在 VPS 上,加载你的模型,应用的每个 AI 请求都在本地提供服务,每 token 零成本。

    一台 $26/月的 Hetzner VPS 运行带量化 7B 模型的 Ollama,每秒处理 15-25 个 token。对于典型应用,这意味着每天 170,000 到 345,000 个请求。

    组件 3:智能请求路由

    async function aiRequest(input: string): Promise<string> {
      try {
        const localResponse = await fetch("http://ollama-vps:11434/api/generate", {
          method: "POST",
          body: JSON.stringify({
            model: "my-fine-tuned-model",
            prompt: input,
            stream: false,
          }),
          signal: AbortSignal.timeout(10000),
        });
    
        const result = await localResponse.json();
    
        if (isValidResponse(result.response)) {
          return result.response;
        }
    
        return await openaiRequest(input);
      } catch (error) {
        return await openaiRequest(input);
      }
    }

    关键洞察:你不需要在第一天就 100% 本地处理。从 80% 本地开始并迭代。每月查看回退到 API 的请求,将它们添加到训练数据中,重新训练并部署更新的模型。

    组件 4:水平扩展

    用户VPS 实例总 VPS 成本每用户月 AI 成本
    1,0001x CX42$26$0.026
    10,0002x CX42$52$0.005
    50,0005x CX42$130$0.003
    100,0008x CX42$208$0.002

    在 100,000 用户时,你每月每用户支付 $0.002 的 AI 推理费。使用 OpenAI API 在同等规模下,你大约支付每用户每月 $0.68。

    这是 340 倍的成本差异。

    固定成本不适用的场景

    实时多模态任务。 视觉模型需要大量 VRAM 的 GPU。

    前沿推理任务。 如果你的应用确实需要 GPT-4 或 Claude 级别的推理。

    极其多样的任务集。 如果你的 AI 功能处理数百种根本不同的任务类型。

    非常早期阶段。 如果你还在迭代 AI 功能的定义。

    底线

    按 token AI 定价创建了一种成功惩罚你的商业模式。固定成本架构打破了这种耦合。$26/月的 VPS 为 5,000 用户提供零 token 费用的服务。在 50,000 用户时,五个 VPS 实例总共 $130/月取代了原本 $33,750/月的 API 调用。


    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    延伸阅读

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading