你的 Vibe 編碼應用程式達到了 1,000 個用戶——接下來呢？

你做到了。你發布了某個東西，人們在使用它，用戶計數器剛超過了 1,000。也許你用 Cursor 和 Bolt 在一個週末建立了它。也許 Lovable 搭建了前端，而你為智能部分接入了 OpenAI API。不管怎樣——它有效了。人們在報名。你甚至可能有付費客戶了。

然後你打開你的 OpenAI 儀表板，看到了這個數字：每月 200 美元。而上個月是 80 美元。前一個月是 30 美元。

歡迎來到 1,000 用戶的時刻。這是你的業餘愛好專案成為具有真實成本的真實產品的地方，你現在做出的決定決定了這個東西是否能生存下去。

1,000 用戶的成本曲線

讓我們來具體說明。以下是典型的 vibe 編碼應用程式在 1,000 個月活躍用戶時的樣子。我們假設中等的 AI 工作負載——比如寫作工具、代碼助理或聊天機器人功能。

指標	典型值
月活躍用戶	1,000
每用戶每天的平均 AI 請求	8–12
每次請求的平均輸入 token	600–1,200
每次請求的平均輸出 token	200–500
每天的總 AI 請求	約 10,000
月 token 總量	約 4.5 億輸入，1 億輸出

以 GPT-4o 定價（輸入 2.50 美元/百萬，輸出 10 美元/百萬），最好的情況下大約是每月 112 美元。但試算表沒有告訴你的是：

你的前 20% 的用戶產生了 60% 的 token。 進階用戶是最喜歡你產品的人——也是花費你最多的人。
提示詞鏈使一切倍增。 如果你的「智能」功能每個用戶操作發出 3 個 API 呼叫，所有這些數字都要乘以三。
上下文視窗悄悄增長。 第一週，你的提示詞平均 600 個 token。到第三個月，用戶有了歷史記錄、偏好和對話上下文。現在你每次請求超過了 1,500 個 token。

考慮這些因素後，1,000 MAU 的現實總計：每月 180–280 美元。並隨用戶數大致線性增長。

這聽起來可能不是致命的。但如果你收費 9.99 美元/月，而只有 15% 的用戶在付費，你的 AI 成本正在吃掉你 120–180% 的收入。你實際上是在付錢讓人們使用你的應用程式。

三條路徑（以及為何大多數 Vibecoder 選錯了）

當 API 帳單達到不舒適的程度時，大多數獨立開發者看到了三個選項：

路徑一：提高價格。 邏輯上說得通，但令人擔憂。你努力獲得了這 1,000 個用戶。從 9.99 美元提高到 19.99 美元可能會修復經濟狀況，但你會失去用戶。而且在 5,000 個用戶時數學又會再次失效。

路徑二：添加使用限制。 這是大多數人選擇的。將免費用戶限制在每天 20 個 AI 請求。添加「你已達到限制」的彈窗。也許添加一個有更高限制的高級層級。

以下是這通常是錯誤答案的原因：你在懲罰你最好的用戶。達到限制的人是最喜歡你產品的人。使用限制在你應該創造愉悅的地方創造了挫折感。而且你仍然按 token 付費——你只是把痛苦從你的錢包轉移到了用戶的體驗上。

路徑三：削減你的實際成本。 這是可以擴展的路徑。不是每次互動向 OpenAI 支付 0.01 美元，而是支付不隨使用量增長的固定月費。怎麼做？微調。

微調路徑：實際情況

如果你從未微調過模型，聽起來很令人生畏。其實不然。尤其是在 2026 年。以下是你實際要做的事情。

第一步：匯出你的 API 日誌

你幾週或幾個月來一直在向 OpenAI 發送請求。那就是訓練資料。你的應用程式生成的每個輸入-輸出對，都是你需要模型做什麼的確切示例。

大多數 OpenAI SDK 設置允許你記錄請求。如果你還沒有記錄，現在就開始——即使是以你當前的流量兩週的日誌，也能給你數千個示例。

你需要大約 1,500–3,000 個高品質的示例來進行可靠的微調。在每天 10,000 個請求的情況下，這不到一天的資料。但要有選擇性——選擇輸出實際上很好的示例。

第二步：清洗和格式化資料

你的訓練資料應該是 JSONL 格式的輸入-輸出對。每一行看起來像：

{"input": "你的應用程式發送的提示詞", "output": "返回的回應"}

去掉專門引用 OpenAI 的系統提示詞。移除任何輸出明顯錯誤或用戶抱怨的示例。品質優於數量——2,000 個乾淨的示例勝過 10,000 個雜亂的示例。

第三步：選擇基礎模型

對於大多數 vibe 編碼應用程式，7B–8B 參數模型是最佳選擇：

Llama 3.3 8B：出色的通用性能。8B 類別中推理能力最強。
Qwen 2.5 7B：非常適合多語言任務或結構化輸出。
Phi-4（3.8B）：如果你的任務簡單並且你想要最大速度。

在你的資料上微調的 7B 模型將在你的特定任務上匹配或超過 GPT-4o，大約 85% 的情況下如此。這不是炒作——這是我們在 Ertas 用戶中看到的一致結果。

第四步：微調

使用 Ertas，這確實只需幾下點擊。將你的 JSONL 資料集上傳到 Vault。選擇你的基礎模型。配置你的 LoRA 訓練運行（默認值在大多數情況下效果很好）。點擊訓練。去泡杯咖啡。

訓練通常需要 30–90 分鐘，取決於資料集大小和基礎模型。你將得到評估指標，顯示你的微調模型在保留的測試示例上的表現。

第五步：匯出並部署

將你的模型匯出為 GGUF 檔案（Q5_K_M 量化是最佳選擇——幾乎沒有品質損失，但檔案小得多）。下載它。將它放到運行 Ollama 的 VPS 上。

你的應用程式現在與 localhost:11434 而非 api.openai.com 通信。API 格式與 OpenAI 相容，所以你在程式碼中只需要更改一個 URL 和一個 API 金鑰。大概 5 行配置。

前後對比

以下是重要的部分——這對你的成本有什麼影響：

	之前（API）	之後（微調）
1K MAU 的月 AI 成本	180–280 美元	44.50 美元
5K MAU 的月 AI 成本	900–1,400 美元	44.50 美元
10K MAU 的月 AI 成本	1,800–2,800 美元	44.50 美元
成本模型	按 token（隨用戶增長）	固定（伺服器 + Ertas 訂閱）

那 44.50 美元是你的 Ertas Builder 方案（14.50 美元/月）加上 Hetzner ARM VPS（30 美元/月）。它每天可以處理約 50,000 個請求，用於 7B 模型。這對 5,000–10,000 MAU 已足夠，取決於使用強度。

你的成本剛剛從曲棍球棒形狀變成了一條平線。

什麼留在 API 上

說實話——微調並不能替換所有東西。為以下情況保留 API：

需要前沿模型推理的邊緣案例（複雜的多步驟分析、有細微差別的創意寫作）
你仍在原型化的新功能（使用 API 進行驗證，然後在功能穩定後微調）
回退，用於當你的模型回應品質低於閾值時

混合方法效果很好：將 80–90% 的請求路由到你的微調模型，保留 10–20% 在 API 上用於困難的事情。即使是這種部分遷移也能將你的帳單削減 70–80%。

你的成本趨於平穩而非繼續攀升

這是真正的轉變。當你在按 token 計費的 API 上時，每個新用戶都是新的成本。增長是一種財務威脅。你發現自己希望用戶不要太多地使用你的產品。

使用固定成本伺服器上的微調模型，增長就只是……增長。第 1,001 個用戶額外花費你 0 美元。第 5,000 個用戶額外花費你 0 美元。最終你需要升級伺服器，但那是一個階躍函數——需要更多容量時從每月 30 美元到 80 美元——而不是持續的消耗。

你不再畏懼 OpenAI 的發票。你開始思考功能而不是限制。這是建立好產品的心態。

這個週末的計畫

你在一個週末發布了你的應用程式。你也可以在一個週末遷移它。

週五晚上：匯出你的 API 日誌。將它們格式化為 JSONL。上傳到 Ertas。
週六上午：在 Llama 3.3 8B 上微調。訓練時，啟動一個 30 美元的 Hetzner VPS 並安裝 Ollama。
週六下午：下載你的 GGUF 模型，將其加載到 Ollama 中，針對你應用程式的真實提示詞測試它。
週日：更新你的應用程式配置以指向你的 VPS。部署。觀察 OpenAI 儀表板趨於平穩。

你已經證明了你可以快速建立。現在證明你可以可持續地建立。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →