獨立開發者
使用 Ertas Studio 微調和部署自訂 AI 模型,無需 ML 基礎設施投資
The Challenge
即興編碼革命讓建構 AI 驅動的應用程式變得極其容易。Cursor、Bolt.new、Lovable 和 Replit Agent 等工具讓獨立開發者和小團隊在幾天內就能發布生產應用,幾乎每個應用都包含 AI 功能——寫作助手、智慧搜尋、自動分類器、對話介面。在開發和早期發布期間,這些功能很便宜:每天幾百次 API 呼叫,每次只需幾分之一美分。但成本曲線是指數級的,而非線性的。一個在 100 位使用者時每月 OpenAI API 費用為 $12 的應用,在 8,000 位使用者時可能要 $600/月,在 40,000 位使用者時可能要 $3,000/月。大多數獨立開發者在已經發布後才發現這個懸崖,此時他們的 Stripe 收入仍以百元計,而 API 帳單已以千元計。
問題比成本更深層。通用基礎模型在特定領域任務上產出平庸的結果,因為它們是在整個網際網路上訓練的,而非在您應用的特定利基上。學術研究者的寫作助手需要與行銷文案撰寫者不同的輸出,但 GPT-4 給兩者相同的通用語調,除非您花數小時精心設計系統提示和少量範例——這些在模型更新時仍會不可預測地失效。供應商鎖定使風險更加複雜:當 OpenAI 棄用某個模型版本或更改定價時,您的應用就會中斷,利潤一夜蒸發。獨立開發者沒有談判籌碼,也沒有替代方案——他們是在沒有租約的租地上建設。
The Solution
Ertas 為獨立開發者提供從昂貴的 API 依賴到便宜的自託管推論的無程式碼路徑。Studio 的視覺化微調介面不需要任何 ML 專業知識——上傳您應用的對話日誌、使用者互動或特定領域內容作為訓練資料,從 Hub 選擇一個緊湊的基礎模型(3B-7B 參數),並啟動 LoRA 微調運行。整個過程花費的時間比設定新的 CI/CD 管線還少。產出的模型原生理解您應用的領域,因為它是在您的實際資料上訓練的,而非被提示去近似它。回應品質提升,同時模型大小——因此推論成本——與商業 API 相比大幅下降。
部署同樣簡單直接。將微調後的模型匯出為 GGUF 檔案,放到任何運行 Ollama 的 VPS 上,然後將您應用的 API 呼叫指向 localhost 而非 api.openai.com。一台每月 $30 的 Hetzner 或 DigitalOcean 主機配備足夠的 RAM 就能每天為 7B 量化模型處理數千個請求。加上 Ertas 每月 AU$14.50 的持續訓練迭代費用,無論使用者增長如何,您的 AI 基礎設施總成本保持在每月 $50 以下——而使用商業 API 則需 $600 以上且持續攀升。您擁有模型權重,所以沒有意外棄用、沒有速率限制、在關鍵路徑中沒有第三方依賴。當您需要改進模型時,將新的應用日誌匯入 Vault,在 Studio 中執行另一次微調迭代,然後零停機熱替換 GGUF 檔案。
Key Features
無程式碼微調
Studio 的視覺化介面為建構產品而非 ML 管線的開發者設計。拖入您的訓練資料,選擇基礎模型,調整少數直覺參數,然後開始訓練。無需 Python 腳本、無需 CUDA 除錯、無需 Hugging Face Trainer 樣板——只有一個乾淨的 UI 產出可生產的模型。
合適大小的模型選擇
Hub 幫助獨立開發者選擇能解決其特定問題的最小模型。按任務類型、參數數量、量化格式和社群基準篩選。一個精確命中您用例的 3B 模型永遠優於一個勉強能用的 70B 模型——而且它能在您真正負擔得起的硬體上運行。
託管訓練基礎設施
Cloud 消除了 GPU 採購問題。在 Ertas 託管的訓練基礎設施上進行微調,無需購買、租用或設定 GPU 實例。按訓練時間付費,而非閒置硬體——然後將完成的模型部署到您自己便宜的基於 CPU 的 VPS 進行推論。
應用日誌匯入與版本控制
Vault 讓您將應用的真實使用資料作為訓練材料匯入——API 呼叫日誌、使用者對話、回饋訊號和修正資料。為您的資料集進行版本控制,以追蹤每次訓練迭代如何改進模型品質,如果新批次引入雜訊則回滾到先前的資料集。
Example Workflow
一位獨立開發者使用 Cursor 和 Next.js 建構了一個面向學術研究者的 AI 寫作助手,GPT-4o 透過 OpenAI API 處理文字建議、引用格式化和摘要生成。在 200 位 beta 使用者的發布時,API 成本為可控的 $45/月。六個月後,應用已增長到 8,000 位月活躍使用者,每月產生 95,000 次 API 呼叫,OpenAI 帳單已達 $620/月——吞噬了應用 $480/月訂閱收入的全部。開發者註冊 Ertas 並從應用資料庫匯出 3 個月的去識別化 API 呼叫日誌(輸入提示和偏好輸出),產出 28,000 個範例的 JSONL 訓練集。他們將其上傳至 Vault 並使用 Studio 以 LoRA 適配器微調 Phi-3 Mini 3.8B 模型,針對三個核心任務:文字建議、引用格式化和摘要生成。經過 2 個 epoch 在 Cloud 上的訓練,微調模型在留出評估集上的三個任務中都與 GPT-4o 的得分相差 3% 以內——在引用格式化方面實際上優於它,因為它是在真實的學術引用模式上訓練的,而非通用文字。開發者將模型匯出為 Q5_K_M GGUF 檔案,部署在 Hetzner CAX31 ARM VPS(AU$14/月)上運行 Ollama,位於現有 API 閘道後方。每月總成本:AU$14.50 Ertas + AU$14 VPS = AU$28.50,從 AU$620 降下。硬體以 340ms 的中位延遲處理全部 95,000 個每月請求——對寫作助手來說可接受。開發者現在擁有正向的單位經濟學和一個每月透過 Studio 回饋新使用資料而持續改進的模型。
Related Resources
Fine-Tuning
GGUF
Inference
LoRA
Your Vibe-Coded App Hit 10K Users. Now Your AI Bill Is $3K/Month.
Fine-Tune AI Models Without Writing Code
The Hidden Cost of Per-Token AI Pricing
Running AI Models Locally: The Complete Guide to Local LLM Inference
Hugging Face
LM Studio
Ollama
Ertas for SaaS Product Teams
Ertas for Code Generation
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.