Back to blog
    用每月 $50 構建 AI SaaS:微調本地堆疊
    stackself-hostedcost-reductionindie-devvibe-codingsegment:vibecoder

    用每月 $50 構建 AI SaaS:微調本地堆疊

    您不需要每月 $10,000 的 API 費用來發布 AI 功能。這裡是完整的堆疊——微調模型、Ollama、$30 的 VPS——每月不到 $50 即可運行生產 AI SaaS。

    EErtas Team·

    每個人談論 AI SaaS 都好像您需要風險投資來支付 API 費用。您不需要。您需要一個微調模型、一台 $30 的服務器,以及停止按 token 向 OpenAI 付費的意願。

    這是完整的堆疊分解。每個部分、每項成本、每個權衡。到最後,您將擁有一個每月 $44.50-$50 運行生產 AI 功能的藍圖。不是每個用戶 $44.50。整個應用程式總計 $44.50。

    讓我們開始構建。

    完整堆疊,逐件分解

    基礎模型選擇

    您需要一個足夠小可以在廉價硬體上運行,但足夠有能力真正有用的開源模型。以下是 2026 年您的三個最佳選擇:

    Llama 3.3 8B — 默認選擇。Meta 最新的 8B 模型具有出色的通用推理能力、強大的指令遵循能力和最廣泛的社區支持。如果不確定,選這個。它很好地處理聊天、生成、摘要和分類。微調後,它遠超其重量級別。

    Qwen 2.5 7B — 阿里巴巴的模型。在結構化輸出(JSON、程式碼、格式化文本)和多語言任務上稍好。如果您的應用需要輸出乾淨的 JSON 或支持多種語言,這個略勝 Llama。由於架構差異,推理速度也稍快。

    Phi-4(3.8B) — 微軟的小而強大的模型。參數量是其他模型的一半,這意味著它更快,需要更少的 RAM。權衡是能力——它很好地處理分類、提取和簡單生成,但在較長或更細緻的文本上有困難。如果您的 AI 功能是狹窄且定義明確的,這是完美的。

    我的建議:除非有特定原因,否則從 Llama 3.3 8B 開始。這是最安全的選擇。

    使用 Ertas 微調

    成本:每月 $14.50(Builder 方案)

    這就是您的通用基礎模型變成您的模型的地方。您上傳訓練資料(應用程式實際 AI 任務的 1,500-5,000 個範例),配置 LoRA 訓練運行,並獲得一個適配器,使基礎模型在您的特定使用案例上表現出色。

    Builder 方案包含:

    • 無限訓練運行
    • Vault 中的數據集管理
    • 實驗追蹤和比較
    • 帶可配置量化的 GGUF 匯出
    • 資料改善時隨時重新訓練的能力

    每次運行的訓練時間為 30-90 分鐘。您可以迭代——訓練、評估、調整資料、再次訓練。大多數人在 2-3 次迭代內獲得良好結果。

    GGUF 匯出和量化

    訓練後,您將模型匯出為 GGUF 文件。這是 Ollama 使用的格式——它是 2026 年本地模型部署的標準。

    關鍵決策是量化級別。量化通過降低數值精度來縮小模型。精度越低 = 文件越小 = 推理越快 = 品質略低。

    以下是實際分解:

    量化文件大小(8B 模型)所需 RAM品質損失速度
    Q8_0~8.5 GB~10 GB可忽略不計基線
    Q6_K~6.6 GB~8 GB最小快約 10%
    Q5_K_M~5.7 GB~7 GB非常小快約 20%
    Q4_K_M~4.9 GB~6 GB在複雜任務上明顯快約 30%
    Q3_K_M~3.9 GB~5 GB顯著快約 40%

    Q5_K_M 是最佳平衡點。 我們已廣泛對此進行基準測試——在專注的微調任務上,Q5_K_M 和全精度之間的品質差異在測量誤差範圍內。您獲得了明顯更小更快的模型,而實際上沒有任何缺點。

    只有在非常小的服務器上壓縮或需要最大速度時,才選擇 Q4_K_M。避免 Q3——品質損失是真實的。

    VPS:您的 AI 服務器

    成本:每月 $20-30

    您需要一台有足夠 RAM 將模型保存在記憶體中,有足夠 CPU 運行推理的服務器。以下是有效的配置:

    Hetzner CAX21(ARM,8 vCPU,16 GB RAM) — 每月 €7.49(約 $8)。是的,真的。Hetzner 上的 ARM 服務器非常便宜。Q5_K_M 量化的 8B 模型需要約 7 GB RAM,為 Ollama 開銷和 OS 留有餘量。這每分鐘處理約 15-25 個請求,每次響應延遲 200-500ms。

    Hetzner CAX31(ARM,8 vCPU,32 GB RAM) — 每月 €14.49(約 $16)。更多的空間。同時運行兩個模型。處理更高的並發性。這是「舒適」的選擇。

    OVH 裸金屬 ARM — 每月約 $25-30,用於具有 32 GB RAM 的專用 ARM 服務器。沒有嘈雜的鄰居。一致的性能。如果您需要可預測的延遲,這是最佳選擇。

    對於大多數 MAU 不超過 5,000 的獨立應用,$16 的 Hetzner CAX31 是正確的選擇。預算 $30 以留有緩衝。

    Ollama:推理服務器

    成本:免費(開源)

    Ollama 是粘合劑。它載入您的 GGUF 模型,在端口 11434 上提供 OpenAI 兼容的 API,處理請求排隊,並在您運行多個模型時管理模型載入/卸載。

    在您的 VPS 上安裝:

    curl -fsSL https://ollama.com/install.sh | sh

    將您的 GGUF 文件複製到服務器。創建一個 Modelfile:

    FROM ./your-model.Q5_K_M.gguf
    
    PARAMETER temperature 0.7
    PARAMETER num_ctx 4096
    

    載入它:

    ollama create myapp-model -f Modelfile
    ollama run myapp-model "test prompt"

    就這樣。Ollama 現在在 http://your-server-ip:11434 上服務您的模型。

    連接您的應用程式

    您的應用程式目前有類似這樣的程式碼:

    const response = await openai.chat.completions.create({
      model: "gpt-4o",
      messages: [{ role: "user", content: userPrompt }],
    });

    將其更改為:

    const response = await openai.chat.completions.create({
      model: "myapp-model",
      messages: [{ role: "user", content: userPrompt }],
    }, {
      baseURL: "http://your-server-ip:11434/v1",
      apiKey: "ollama", // Ollama 不需要真正的金鑰
    });

    更改了兩行。相同的 SDK。相同的響應格式。您的應用程式不知道有什麼不同。

    完整成本分解

    項目每月費用
    Ertas Builder 方案$14.50
    Hetzner CAX31 VPS(32 GB ARM)~$16
    域名 + DNS(Cloudflare)$0
    Ollama$0
    SSL/TLS(Let's Encrypt)$0
    總計~$30.50/月

    即使您選擇了更強大的 $30/月服務器,您的費用也是 $44.50。四捨五入到 $50 用於帶寬和雜項成本。

    每月 $50。用於生產 AI 推理。沒有按 token 計費。

    與 API 等效成本相比。具有 2,000 MAU 的典型 AI SaaS,使用 GPT-4o,僅 API 調用就花費每月 $500-2,000。您花費 $50。

    這個堆疊能處理什麼

    讓我們具體說明容量。32 GB ARM 服務器上的 Q5_K_M 的 Llama 3.3 8B 模型:

    • 吞吐量:約每分鐘 20-30 個請求(順序),批處理時更高
    • 每日容量:約每天 30,000-45,000 個請求
    • 用戶容量:3,000-5,000 MAU,適度使用(每個用戶每天 8-10 個 AI 請求)
    • 延遲:典型響應的 150-400ms(200-500 個輸出 token)
    • 並發請求:2-4 個同時(Ollama 排隊其餘的)

    為了比較,GPT-4o 上每天 45,000 個請求,每次請求 $0.008,每天費用 $360,或每月 $10,800。您用 $50 做相同的量。

    它很好地處理:

    • 文本分類和分類
    • 內容摘要(最多約 2,000 字)
    • 結構化資料提取(JSON 輸出)
    • 聊天/對話響應(特定領域)
    • 基於模板的生成(電子郵件、報告、描述)
    • 情感分析和語調偵測
    • 語法和風格糾正

    它一般地處理:

    • 創意寫作(好但不是前沿品質)
    • 程式碼生成(對片段沒問題,不是完整功能)
    • 多語言內容(使用 Qwen 基礎更好)

    它不處理:

    • 複雜的多步驟推理鏈
    • 需要您未訓練的知識的任務
    • 非常長的上下文窗口(在 CPU 上超過 4K token 會變慢)
    • 向許多同時用戶的實時流式傳輸

    何時需要升級

    $50 的堆疊有限制。以下是您超越它的時候:

    超過 5,000 MAU 或每天超過 50K 請求:升級到配備 GPU 的服務器。配備 L4 GPU 的 Hetzner GX 服務器每月運行約 $150。這將您的吞吐量提高 5 倍並將延遲減半。

    需要多個模型:如果您運行 3 個以上不同的微調模型,您需要更多 RAM。要麼升級到 64 GB 服務器(每月 $40),要麼分散到兩個 VPS 實例。

    延遲關鍵功能:如果您需要低於 100ms 的響應,您需要 GPU 推理。7B 模型上的 CPU 推理底部約 150ms。

    非常高的並發性:如果您定期有 20 個以上同時等待 AI 響應的用戶,您需要 GPU 加速或水平擴展(負載均衡器後面的多個 VPS 實例)。

    升級路徑是平滑的。您的 GGUF 模型在更大的服務器上工作相同。Ollama 不在乎它在什麼硬體上運行。您只需移動模型文件並更新 DNS。

    API 備用:雙重保險

    即使有這個堆疊,也要將 API 金鑰配置為備用:

    async function aiRequest(prompt) {
      try {
        return await localModel.complete(prompt);
      } catch (error) {
        // 服務器宕機?高延遲?回退到 API。
        return await openaiApi.complete(prompt);
      }
    }

    您的 VPS 會有偶爾的維護窗口。您的模型可能會遇到處理不佳的邊緣案例。將 API 作為安全網,當您不使用它時不花您任何費用,在您需要時可以避免停機。

    在生產的第一週後,您使用備用的時間不到 1%。但這 1% 很重要。

    重要的數學

    以下是為什麼這個堆疊改變了獨立構建者的遊戲:

    在 $9.99/月訂閱,2,000 MAU 和 12% 付費轉化率:

    API 方式:收入 $2,398/月,AI 成本 $1,200/月,利潤 $1,198/月(50%) $50 堆疊:收入 $2,398/月,AI 成本 $50/月,利潤 $2,348/月(98%)

    每月額外的 $1,150 是「有點有效的副項目」和「資助我生活的業務」之間的差異。在 5,000 MAU 時,差距擴大到每月 $3,000 以上。

    您不僅僅是在省錢。您是在讓整個商業模式可行。


    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    延伸閱讀

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading