
用每月 $50 構建 AI SaaS:微調本地堆疊
您不需要每月 $10,000 的 API 費用來發布 AI 功能。這裡是完整的堆疊——微調模型、Ollama、$30 的 VPS——每月不到 $50 即可運行生產 AI SaaS。
每個人談論 AI SaaS 都好像您需要風險投資來支付 API 費用。您不需要。您需要一個微調模型、一台 $30 的服務器,以及停止按 token 向 OpenAI 付費的意願。
這是完整的堆疊分解。每個部分、每項成本、每個權衡。到最後,您將擁有一個每月 $44.50-$50 運行生產 AI 功能的藍圖。不是每個用戶 $44.50。整個應用程式總計 $44.50。
讓我們開始構建。
完整堆疊,逐件分解
基礎模型選擇
您需要一個足夠小可以在廉價硬體上運行,但足夠有能力真正有用的開源模型。以下是 2026 年您的三個最佳選擇:
Llama 3.3 8B — 默認選擇。Meta 最新的 8B 模型具有出色的通用推理能力、強大的指令遵循能力和最廣泛的社區支持。如果不確定,選這個。它很好地處理聊天、生成、摘要和分類。微調後,它遠超其重量級別。
Qwen 2.5 7B — 阿里巴巴的模型。在結構化輸出(JSON、程式碼、格式化文本)和多語言任務上稍好。如果您的應用需要輸出乾淨的 JSON 或支持多種語言,這個略勝 Llama。由於架構差異,推理速度也稍快。
Phi-4(3.8B) — 微軟的小而強大的模型。參數量是其他模型的一半,這意味著它更快,需要更少的 RAM。權衡是能力——它很好地處理分類、提取和簡單生成,但在較長或更細緻的文本上有困難。如果您的 AI 功能是狹窄且定義明 確的,這是完美的。
我的建議:除非有特定原因,否則從 Llama 3.3 8B 開始。這是最安全的選擇。
使用 Ertas 微調
成本:每月 $14.50(Builder 方案)
這就是您的通用基礎模型變成您的模型的地方。您上傳訓練資料(應用程式實際 AI 任務的 1,500-5,000 個範例),配置 LoRA 訓練運行,並獲得一個適配器,使基礎模型在您的特定使用案例上表現出色。
Builder 方案包含:
- 無限訓練運行
- Vault 中的數據集管理
- 實驗追蹤和比較
- 帶可配置量化的 GGUF 匯出
- 資料改善時隨時重新訓練的能力
每次運行的訓練時間為 30-90 分鐘。您可以迭代——訓練、評估、調整資料、再次訓練。大多數人在 2-3 次迭代內獲得良好結果。
GGUF 匯出和量化
訓練後,您將 模型匯出為 GGUF 文件。這是 Ollama 使用的格式——它是 2026 年本地模型部署的標準。
關鍵決策是量化級別。量化通過降低數值精度來縮小模型。精度越低 = 文件越小 = 推理越快 = 品質略低。
以下是實際分解:
| 量化 | 文件大小(8B 模型) | 所需 RAM | 品質損失 | 速度 |
|---|---|---|---|---|
| Q8_0 | ~8.5 GB | ~10 GB | 可忽略不計 | 基線 |
| Q6_K | ~6.6 GB | ~8 GB | 最小 | 快約 10% |
| Q5_K_M | ~5.7 GB | ~7 GB | 非常小 | 快約 20% |
| Q4_K_M | ~4.9 GB | ~6 GB | 在複雜任務上明顯 | 快約 30% |
| Q3_K_M | ~3.9 GB | ~5 GB | 顯著 | 快約 40% |
Q5_K_M 是最佳平衡點。 我們已廣泛對此進行基準測試——在專注的微調任務上,Q5_K_M 和全精度之間的品質差異在測量誤差範圍內。您獲得了明顯更小更快的模型,而實際上沒有任何缺點。
只有在非常小的服務器上壓縮或需要最大速度時,才選擇 Q4_K_M。避免 Q3——品質損失是真實的。
VPS:您的 AI 服務器
成本:每月 $20-30
您需要一台有足夠 RAM 將模型保存在記憶體中,有足夠 CPU 運行推理的服務器。以下是有效的配置:
Hetzner CAX21(ARM,8 vCPU,16 GB RAM) — 每月 €7.49(約 $8)。是的,真的。Hetzner 上的 ARM 服務器非常便宜。Q5_K_M 量化的 8B 模型需要約 7 GB RAM,為 Ollama 開銷和 OS 留有餘量。這每分鐘處理約 15-25 個請求,每次響應延遲 200-500ms。
Hetzner CAX31(ARM,8 vCPU,32 GB RAM) — 每月 €14.49(約 $16)。更多的空間。同時運行兩個模型。處理更高的並發性。這是「舒適」的選擇。
OVH 裸金屬 ARM — 每月約 $25-30,用於具有 32 GB RAM 的專用 ARM 服務器。沒有嘈雜的鄰居。一致的性能。如果您需要可預測的延遲,這是最佳選擇。
對於大多數 MAU 不超過 5,000 的獨立應用,$16 的 Hetzner CAX31 是正確的選擇。預算 $30 以留有緩衝。
Ollama:推理服務器
成本:免費(開源)
Ollama 是粘合劑。它載入您的 GGUF 模型,在端口 11434 上提供 OpenAI 兼容的 API,處理請求排隊,並在您運行多個模型時管理模型載入/卸載。
在您的 VPS 上安裝:
curl -fsSL https://ollama.com/install.sh | sh
將您的 GGUF 文件複製到服務器。創建一個 Modelfile:
FROM ./your-model.Q5_K_M.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 4096
載入它:
ollama create myapp-model -f Modelfile
ollama run myapp-model "test prompt"
就這樣。Ollama 現在在 http://your-server-ip:11434 上服務您的模型。
連接您的應用程式
您的應用程式目前有類似這樣的程式碼:
const response = await openai.chat.completions.create({
model: "gpt-4o",
messages: [{ role: "user", content: userPrompt }],
});
將其更改為:
const response = await openai.chat.completions.create({
model: "myapp-model",
messages: [{ role: "user", content: userPrompt }],
}, {
baseURL: "http://your-server-ip:11434/v1",
apiKey: "ollama", // Ollama 不需要真正的金鑰
});
更改了兩行。相同的 SDK。相同的響應格式。您的應用程式不知道有什麼不同。
完整成本分解
| 項目 | 每月費用 |
|---|---|
| Ertas Builder 方案 | $14.50 |
| Hetzner CAX31 VPS(32 GB ARM) | ~$16 |
| 域名 + DNS(Cloudflare) | $0 |
| Ollama | $0 |
| SSL/TLS(Let's Encrypt) | $0 |
| 總計 | ~$30.50/月 |
即使您選擇了更強大的 $30/月服務器,您的費用也是 $44.50。四捨五入到 $50 用於帶寬和雜項成本。
每月 $50。用於生產 AI 推理。沒有按 token 計費。
與 API 等效成本相比。具有 2,000 MAU 的典型 AI SaaS,使用 GPT-4o,僅 API 調用就花費每月 $500-2,000。您花費 $50。
這個堆疊能處理什麼
讓我們具體說明容量。32 GB ARM 服務器上的 Q5_K_M 的 Llama 3.3 8B 模型:
- 吞吐量:約每分鐘 20-30 個請求(順序),批處理時更高
- 每日容量:約每天 30,000-45,000 個請求
- 用戶容量:3,000-5,000 MAU,適度使用(每個用戶每天 8-10 個 AI 請求)
- 延遲:典型響應的 150-400ms(200-500 個輸出 token)
- 並發請求:2-4 個同時(Ollama 排隊其餘的)
為了比較,GPT-4o 上每天 45,000 個請求,每次請求 $0.008,每天費用 $360,或每月 $10,800。您用 $50 做相同的量。
它很好地處理:
- 文本分類和分類
- 內容摘要(最多約 2,000 字)
- 結構化資料提取(JSON 輸出)
- 聊天/對話響應(特定領域)
- 基於模板的生成(電子郵件、報告、描述)
- 情感分析和語調偵測
- 語法和風格糾正
它一般地處理:
- 創意寫作(好但不是前沿品質)
- 程式碼生成(對片段沒問題,不是完整功能)
- 多語言內容(使用 Qwen 基礎更好)
它不處理:
- 複雜的多步驟推理鏈
- 需要您未訓練的知識的任務
- 非常長的上下文窗口(在 CPU 上超過 4K token 會變慢)
- 向許多同時用戶的實時流式傳輸
何時需要升級
$50 的堆疊有限制。以下是您超越它的時候:
超過 5,000 MAU 或每天超過 50K 請求:升級到配備 GPU 的服務器。配備 L4 GPU 的 Hetzner GX 服務器每月運行約 $150。這將您的吞吐量提高 5 倍並將延遲減半。
需要多個模型:如果您運行 3 個以上不同的微調模型,您需要更多 RAM。要麼升級到 64 GB 服務器(每月 $40),要麼分散到兩個 VPS 實例。
延遲關鍵功能:如果您需要低於 100ms 的響應,您需要 GPU 推理。7B 模型上的 CPU 推理底部約 150ms。
非常高的並發性:如果您定期有 20 個以上同時等待 AI 響應的用戶,您需要 GPU 加速或水平擴展(負載均衡器後面的多個 VPS 實例)。
升級路徑是平滑的。您的 GGUF 模型在更大的服務器上工作相同。Ollama 不在乎它在什麼硬體上運行。您只需移動模型文件並更新 DNS。
API 備用:雙重保險
即使有這個堆疊,也要將 API 金鑰配置為備用:
async function aiRequest(prompt) {
try {
return await localModel.complete(prompt);
} catch (error) {
// 服務器宕機?高延遲?回退到 API。
return await openaiApi.complete(prompt);
}
}
您的 VPS 會有偶爾的維護窗口。您的模型可能會遇到處理不佳的邊緣案例。將 API 作為安全網,當您不使用它時不花您任何費用,在您需要時可以避免停機。
在生產的第一週後,您使用備用的時間不到 1%。但這 1% 很重要。
重要的數學
以下是為什麼這個堆疊改變了獨立構建者的遊戲:
在 $9.99/月訂閱,2,000 MAU 和 12% 付費轉化率:
API 方式:收入 $2,398/月,AI 成本 $1,200/月,利潤 $1,198/月(50%) $50 堆疊:收入 $2,398/月,AI 成本 $50/月,利潤 $2,348/月(98%)
每月額外的 $1,150 是「有點有效的副項目」和「資助我生活的業務」之間的差異。在 5,000 MAU 時,差距擴大到每月 $3,000 以上。
您不僅僅是在省錢。您是在讓整個商業模式可行。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
延伸閱讀
- 獨立應用的自託管 AI:用您自己的模型替換 GPT-4 — 深入了解自託管方法和架構決策。
- 在本地運行 AI 模型:實用指南 — 關於 Ollama、GGUF、量化和本地部署的一切。
- 獨立應用的固定成本 AI 架構 — 固定成本 AI 基礎設施背後的架構理念。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Your Vibe-Coded App Hit 1,000 Users — Now What?
You shipped fast with Cursor and Bolt. Users love it. But your OpenAI bill just crossed $200/month and it's climbing. Here's the cost survival guide for vibe-coded apps hitting real scale.

The Vibecoder's Guide to AI Unit Economics: When Free Tiers Stop Being Free
OpenAI's free tier got you started. But at scale, you're spending $5K/month on Opus for tasks Haiku could handle. Here's how to think about AI costs like a founder, not a hobbyist.

Your Vibe-Coded App Hit 10K Users. Now Your AI Bill Is $3K/Month.
Vibe-coded apps with AI features face a brutal cost cliff at scale. Here's how indie developers are cutting AI costs by 95% with fine-tuned local models — without rewriting their apps.