Bolt.new 應用程式與 OpenAI 成本懸崖：規模化後會發生什麼

Bolt.new 非常適合快速發布。您描述您想要的功能，Bolt 生成完整的全端應用程式，幾個小時內就能部署。生成的代碼很乾淨，架構合理，AI 功能開箱即用。

但每個使用 OpenAI 的 Bolt.new 應用程式都內嵌了一個結構性問題。它在開發期間不會出現，在上線時不會出現，它大約在第三個月出現——當您有幾百個用戶，且 API 控制台每週看起來都更糟時。

Bolt.new 的順利路徑

AI 功能是這樣進入 Bolt.new 應用程式的。您描述您的應用程式：「一個幫助用戶用 AI 建議改進內容的寫作助手。」Bolt 生成應用程式，包括一個調用 OpenAI 聊天完成 API 的後端端點。代碼看起來像這樣：

// Generated by Bolt.new
const response = await openai.chat.completions.create({
  model: "gpt-4o-mini",
  messages: [
    { role: "system", content: "You are a writing assistant..." },
    { role: "user", content: userContent }
  ]
});

簡潔、功能完整，完全適合驗證想法。您發布它，用戶試用，反饋積極。您已經起跑了。

問題在於接下來發生的事。

費用在哪裡爆發

讓我們追蹤一個 Bolt.new 寫作助手應用程式的實際數字。

假設：

使用 gpt-4o-mini 以降低成本
平均請求：300 個輸入 token + 400 個輸出 token = 700 個 token
gpt-4o-mini 定價：0.15 美元/百萬輸入 token，0.60 美元/百萬輸出 token
每次請求費用：約 0.045 + 0.24 美元 = 約 0.000285 美元
平均用戶：每月 40 次請求

用戶數	每月 API 請求數	每月 OpenAI 費用
100	4,000	1.14 美元
500	20,000	5.70 美元
1,000	40,000	11.40 美元
3,000	120,000	34.20 美元
5,000	200,000	57.00 美元
10,000	400,000	114.00 美元
50,000	2,000,000	570.00 美元

這些數字看起來還可以控制。問題是：(a) 這些是使用最便宜的可用模型的最佳估計，以及 (b) 成本隨著用戶增長線性增長，而用戶增長正是目標。

如果您正在構建具有更高價值功能的應用（使用 GPT-4o 而非 gpt-4o-mini，更長的提示詞，更頻繁的調用），請將這些數字乘以 10-20 倍。

對於使用 GPT-4o 每次請求 700 個 token 的更真實的生產應用：

2.50 美元/百萬輸入，10.00 美元/百萬輸出
每次請求費用：約 0.00175 + 0.004 美元 = 約 0.0058 美元
10,000 用戶 × 每月 40 次請求：每月 2,320 美元

這就是成本懸崖。

為什麼 Bolt.new 讓情況更糟

Bolt.new 的速度讓到處添加 AI 功能變得危險地容易。您提示：「在每個儀表板視圖中添加 AI 摘要。」Bolt 添加了。「在側邊欄添加 AI 驅動的建議。」Bolt 添加了。「讓搜索欄用 AI 理解意圖。」Bolt 添加了。

每個添加都是每個用戶會話的另一次 API 調用。當您的應用程式完善時，每個用戶每次會話可能有 4-6 個 AI 觸點。每一個都是另一個線性擴展成本。

添加的便利性在規模化時成為負擔。您構建了一個 AI 深度整合的應用程式——這對用戶體驗很好，對利潤率很糟糕。

解決方案：微調一次，本地運行

解決方案是用微調的本地模型替換 OpenAI API 調用。對於您的具體用例，品質是等效的；成本結構根本上不同。

以下是流程：

步驟 1：從現有 API 日誌收集訓練數據。

如果您的應用程式已經與真實用戶運行 2-4 週，您就有了所需的數據。匯出您的 API 調用日誌並提取輸入/輸出對。篩選用戶與 AI 輸出互動的案例（沒有立即重試，繼續使用應用程式）。格式化為 JSONL：

{"instruction": "改進以下段落的清晰度：", "input": "用戶段落在此", "output": "改進後的段落在此"}

目標是 400-800 個示例。品質比數量更重要。

步驟 2：在 Ertas 中微調（30-90 分鐘）。

將 JSONL 上傳到 Ertas，選擇 Qwen 2.5 7B 作為基礎模型，配置訓練設置。可視化界面處理其餘部分。訓練需要 45-90 分鐘。下載 GGUF 文件。

步驟 3：在 VPS 上部署 Ollama。

啟動 Hetzner CX32 或 CX42（每月 14-26 美元）。安裝 Ollama，為您的 GGUF 創建 Modelfile，開始提供服務。

步驟 4：更新您的 Bolt.new 應用程式代碼。

這是讓大多數開發者感到驚訝的部分：通常只需更改一行。Ollama 提供與 OpenAI 相容的 API。更新您的 OpenAI 客戶端中的 baseURL：

// 之前（OpenAI）：
const openai = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });

// 之後（Ollama——只需更改一行）：
const openai = new OpenAI({
  apiKey: "not-needed", // Ollama 默認不需要認證
  baseURL: "http://your-vps-ip:11434/v1",
});

// 其餘代碼保持完全不變
const response = await openai.chat.completions.create({
  model: "my-fine-tuned-model", // Ollama 中的模型名稱
  messages: [...],
});

您現有的 Bolt.new 生成代碼無需更改。只需更新客戶端配置。

遷移後的成本

場景	OpenAI API（每月）	Ertas + VPS（每月）
1,000 用戶	11-115 美元	40.50 美元
5,000 用戶	57-580 美元	40.50 美元
10,000 用戶	114-1,160 美元	40.50 美元
50,000 用戶	570-5,800 美元	66.50 美元（更大的 VPS）

微調本地模型的費用：14.50 美元/月（Ertas Builder，早鳥優惠）+ 26 美元/月（VPS）。總計：無論請求量如何，每月 40.50 美元。

盈虧平衡點： 對於以適度使用 gpt-4o-mini 的應用，盈虧平衡點約在 500-700 個用戶。對於以更高使用量使用 gpt-4o 的應用，盈虧平衡點可能低於 100 個用戶。

品質會下降嗎？

對於狹窄的、特定領域的任務——幾乎所有 Bolt.new AI 功能都是如此——不會。在 500-800 個您的特定任務示例上微調的 7B 模型，在該任務上的表現將達到 GPT-4 準確率的 90-95%。

注意事項：如果您的應用程式需要廣泛的推理、高水準的創意寫作，或真正需要前沿模型智能的任務，權衡就不同了。大多數 Bolt.new AI 功能是提取、分類、摘要或風格匹配——這些都是微調小型模型擅長的任務。

您可以在承諾之前驗證：使用 Ertas 的評估工具，以 GPT-4 輸出作為參考，在保留的測試集上對您的微調模型進行基準測試。如果品質在可接受範圍內，就推進遷移。

Bolt.new 應用程式與 OpenAI 成本懸崖：規模化後會發生什麼

Bolt.new 的順利路徑

費用在哪裡爆發

為什麼 Bolt.new 讓情況更糟

解決方案：微調一次，本地運行

遷移後的成本

品質會下降嗎？

延伸閱讀

Ship AI that runs on your users' devices.

Keep reading

Replit App AI Costs Exploding? Replace OpenAI with a Fine-Tuned Local Model

Your Lovable App Has a $600/Month Problem

Vibecoder AI Cost Guide: Every Major Builder Platform Covered (2026)