用每月 $50 構建 AI SaaS：微調本地堆疊

每個人談論 AI SaaS 都好像您需要風險投資來支付 API 費用。您不需要。您需要一個微調模型、一台 $30 的服務器，以及停止按 token 向 OpenAI 付費的意願。

這是完整的堆疊分解。每個部分、每項成本、每個權衡。到最後，您將擁有一個每月 $44.50-$50 運行生產 AI 功能的藍圖。不是每個用戶 $44.50。整個應用程式總計 $44.50。

讓我們開始構建。

完整堆疊，逐件分解

基礎模型選擇

您需要一個足夠小可以在廉價硬體上運行，但足夠有能力真正有用的開源模型。以下是 2026 年您的三個最佳選擇：

Llama 3.3 8B — 默認選擇。Meta 最新的 8B 模型具有出色的通用推理能力、強大的指令遵循能力和最廣泛的社區支持。如果不確定，選這個。它很好地處理聊天、生成、摘要和分類。微調後，它遠超其重量級別。

Qwen 2.5 7B — 阿里巴巴的模型。在結構化輸出（JSON、程式碼、格式化文本）和多語言任務上稍好。如果您的應用需要輸出乾淨的 JSON 或支持多種語言，這個略勝 Llama。由於架構差異，推理速度也稍快。

Phi-4（3.8B） — 微軟的小而強大的模型。參數量是其他模型的一半，這意味著它更快，需要更少的 RAM。權衡是能力——它很好地處理分類、提取和簡單生成，但在較長或更細緻的文本上有困難。如果您的 AI 功能是狹窄且定義明確的，這是完美的。

我的建議：除非有特定原因，否則從 Llama 3.3 8B 開始。這是最安全的選擇。

使用 Ertas 微調

成本：每月 $14.50（Builder 方案）

這就是您的通用基礎模型變成您的模型的地方。您上傳訓練資料（應用程式實際 AI 任務的 1,500-5,000 個範例），配置 LoRA 訓練運行，並獲得一個適配器，使基礎模型在您的特定使用案例上表現出色。

Builder 方案包含：

無限訓練運行
Vault 中的數據集管理
實驗追蹤和比較
帶可配置量化的 GGUF 匯出
資料改善時隨時重新訓練的能力

每次運行的訓練時間為 30-90 分鐘。您可以迭代——訓練、評估、調整資料、再次訓練。大多數人在 2-3 次迭代內獲得良好結果。

GGUF 匯出和量化

訓練後，您將模型匯出為 GGUF 文件。這是 Ollama 使用的格式——它是 2026 年本地模型部署的標準。

關鍵決策是量化級別。量化通過降低數值精度來縮小模型。精度越低 = 文件越小 = 推理越快 = 品質略低。

以下是實際分解：

量化	文件大小（8B 模型）	所需 RAM	品質損失	速度
Q8_0	~8.5 GB	~10 GB	可忽略不計	基線
Q6_K	~6.6 GB	~8 GB	最小	快約 10%
Q5_K_M	~5.7 GB	~7 GB	非常小	快約 20%
Q4_K_M	~4.9 GB	~6 GB	在複雜任務上明顯	快約 30%
Q3_K_M	~3.9 GB	~5 GB	顯著	快約 40%

Q5_K_M 是最佳平衡點。 我們已廣泛對此進行基準測試——在專注的微調任務上，Q5_K_M 和全精度之間的品質差異在測量誤差範圍內。您獲得了明顯更小更快的模型，而實際上沒有任何缺點。

只有在非常小的服務器上壓縮或需要最大速度時，才選擇 Q4_K_M。避免 Q3——品質損失是真實的。

VPS：您的 AI 服務器

成本：每月 $20-30

您需要一台有足夠 RAM 將模型保存在記憶體中，有足夠 CPU 運行推理的服務器。以下是有效的配置：

Hetzner CAX21（ARM，8 vCPU，16 GB RAM） — 每月 €7.49（約 $8）。是的，真的。Hetzner 上的 ARM 服務器非常便宜。Q5_K_M 量化的 8B 模型需要約 7 GB RAM，為 Ollama 開銷和 OS 留有餘量。這每分鐘處理約 15-25 個請求，每次響應延遲 200-500ms。

Hetzner CAX31（ARM，8 vCPU，32 GB RAM） — 每月 €14.49（約 $16）。更多的空間。同時運行兩個模型。處理更高的並發性。這是「舒適」的選擇。

OVH 裸金屬 ARM — 每月約 $25-30，用於具有 32 GB RAM 的專用 ARM 服務器。沒有嘈雜的鄰居。一致的性能。如果您需要可預測的延遲，這是最佳選擇。

對於大多數 MAU 不超過 5,000 的獨立應用，$16 的 Hetzner CAX31 是正確的選擇。預算 $30 以留有緩衝。

Ollama：推理服務器

成本：免費（開源）

Ollama 是粘合劑。它載入您的 GGUF 模型，在端口 11434 上提供 OpenAI 兼容的 API，處理請求排隊，並在您運行多個模型時管理模型載入/卸載。

在您的 VPS 上安裝：

curl -fsSL https://ollama.com/install.sh | sh

將您的 GGUF 文件複製到服務器。創建一個 Modelfile：

FROM ./your-model.Q5_K_M.gguf

PARAMETER temperature 0.7
PARAMETER num_ctx 4096

載入它：

ollama create myapp-model -f Modelfile
ollama run myapp-model "test prompt"

就這樣。Ollama 現在在 http://your-server-ip:11434 上服務您的模型。

連接您的應用程式

您的應用程式目前有類似這樣的程式碼：

const response = await openai.chat.completions.create({
  model: "gpt-4o",
  messages: [{ role: "user", content: userPrompt }],
});

將其更改為：

const response = await openai.chat.completions.create({
  model: "myapp-model",
  messages: [{ role: "user", content: userPrompt }],
}, {
  baseURL: "http://your-server-ip:11434/v1",
  apiKey: "ollama", // Ollama 不需要真正的金鑰
});

更改了兩行。相同的 SDK。相同的響應格式。您的應用程式不知道有什麼不同。

完整成本分解

項目	每月費用
Ertas Builder 方案	$14.50
Hetzner CAX31 VPS（32 GB ARM）	~$16
域名 + DNS（Cloudflare）	$0
Ollama	$0
SSL/TLS（Let's Encrypt）	$0
總計	~$30.50/月

即使您選擇了更強大的 $30/月服務器，您的費用也是 $44.50。四捨五入到 $50 用於帶寬和雜項成本。

每月 $50。用於生產 AI 推理。沒有按 token 計費。

與 API 等效成本相比。具有 2,000 MAU 的典型 AI SaaS，使用 GPT-4o，僅 API 調用就花費每月 $500-2,000。您花費 $50。

這個堆疊能處理什麼

讓我們具體說明容量。32 GB ARM 服務器上的 Q5_K_M 的 Llama 3.3 8B 模型：

吞吐量：約每分鐘 20-30 個請求（順序），批處理時更高
每日容量：約每天 30,000-45,000 個請求
用戶容量：3,000-5,000 MAU，適度使用（每個用戶每天 8-10 個 AI 請求）
延遲：典型響應的 150-400ms（200-500 個輸出 token）
並發請求：2-4 個同時（Ollama 排隊其餘的）

為了比較，GPT-4o 上每天 45,000 個請求，每次請求 $0.008，每天費用 $360，或每月 $10,800。您用 $50 做相同的量。

它很好地處理：

文本分類和分類
內容摘要（最多約 2,000 字）
結構化資料提取（JSON 輸出）
聊天/對話響應（特定領域）
基於模板的生成（電子郵件、報告、描述）
情感分析和語調偵測
語法和風格糾正

它一般地處理：

創意寫作（好但不是前沿品質）
程式碼生成（對片段沒問題，不是完整功能）
多語言內容（使用 Qwen 基礎更好）

它不處理：

複雜的多步驟推理鏈
需要您未訓練的知識的任務
非常長的上下文窗口（在 CPU 上超過 4K token 會變慢）
向許多同時用戶的實時流式傳輸

何時需要升級

$50 的堆疊有限制。以下是您超越它的時候：

超過 5,000 MAU 或每天超過 50K 請求：升級到配備 GPU 的服務器。配備 L4 GPU 的 Hetzner GX 服務器每月運行約 $150。這將您的吞吐量提高 5 倍並將延遲減半。

需要多個模型：如果您運行 3 個以上不同的微調模型，您需要更多 RAM。要麼升級到 64 GB 服務器（每月 $40），要麼分散到兩個 VPS 實例。

延遲關鍵功能：如果您需要低於 100ms 的響應，您需要 GPU 推理。7B 模型上的 CPU 推理底部約 150ms。

非常高的並發性：如果您定期有 20 個以上同時等待 AI 響應的用戶，您需要 GPU 加速或水平擴展（負載均衡器後面的多個 VPS 實例）。

升級路徑是平滑的。您的 GGUF 模型在更大的服務器上工作相同。Ollama 不在乎它在什麼硬體上運行。您只需移動模型文件並更新 DNS。

API 備用：雙重保險

即使有這個堆疊，也要將 API 金鑰配置為備用：

async function aiRequest(prompt) {
  try {
    return await localModel.complete(prompt);
  } catch (error) {
    // 服務器宕機？高延遲？回退到 API。
    return await openaiApi.complete(prompt);
  }
}

您的 VPS 會有偶爾的維護窗口。您的模型可能會遇到處理不佳的邊緣案例。將 API 作為安全網，當您不使用它時不花您任何費用，在您需要時可以避免停機。

在生產的第一週後，您使用備用的時間不到 1%。但這 1% 很重要。

重要的數學

以下是為什麼這個堆疊改變了獨立構建者的遊戲：

在 $9.99/月訂閱，2,000 MAU 和 12% 付費轉化率：

API 方式：收入 $2,398/月，AI 成本 $1,200/月，利潤 $1,198/月（50%） $50 堆疊：收入 $2,398/月，AI 成本 $50/月，利潤 $2,348/月（98%）

每月額外的 $1,150 是「有點有效的副項目」和「資助我生活的業務」之間的差異。在 5,000 MAU 時，差距擴大到每月 $3,000 以上。

您不僅僅是在省錢。您是在讓整個商業模式可行。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →