獨立開發者

使用 Ertas Studio 微調和部署自訂 AI 模型，無需 ML 基礎設施投資

The Challenge

即興編碼革命讓建構 AI 驅動的應用程式變得極其容易。Cursor、Bolt.new、Lovable 和 Replit Agent 等工具讓獨立開發者和小團隊在幾天內就能發布生產應用，幾乎每個應用都包含 AI 功能——寫作助手、智慧搜尋、自動分類器、對話介面。在開發和早期發布期間，這些功能很便宜：每天幾百次 API 呼叫，每次只需幾分之一美分。但成本曲線是指數級的，而非線性的。一個在 100 位使用者時每月 OpenAI API 費用為 $12 的應用，在 8,000 位使用者時可能要 $600/月，在 40,000 位使用者時可能要 $3,000/月。大多數獨立開發者在已經發布後才發現這個懸崖，此時他們的 Stripe 收入仍以百元計，而 API 帳單已以千元計。

問題比成本更深層。通用基礎模型在特定領域任務上產出平庸的結果，因為它們是在整個網際網路上訓練的，而非在您應用的特定利基上。學術研究者的寫作助手需要與行銷文案撰寫者不同的輸出，但 GPT-4 給兩者相同的通用語調，除非您花數小時精心設計系統提示和少量範例——這些在模型更新時仍會不可預測地失效。供應商鎖定使風險更加複雜：當 OpenAI 棄用某個模型版本或更改定價時，您的應用就會中斷，利潤一夜蒸發。獨立開發者沒有談判籌碼，也沒有替代方案——他們是在沒有租約的租地上建設。

The Solution

Ertas 為獨立開發者提供從昂貴的 API 依賴到便宜的自託管推論的無程式碼路徑。Studio 的視覺化微調介面不需要任何 ML 專業知識——上傳您應用的對話日誌、使用者互動或特定領域內容作為訓練資料，從 Hub 選擇一個緊湊的基礎模型（3B-7B 參數），並啟動 LoRA 微調運行。整個過程花費的時間比設定新的 CI/CD 管線還少。產出的模型原生理解您應用的領域，因為它是在您的實際資料上訓練的，而非被提示去近似它。回應品質提升，同時模型大小——因此推論成本——與商業 API 相比大幅下降。

部署同樣簡單直接。將微調後的模型匯出為 GGUF 檔案，放到任何運行 Ollama 的 VPS 上，然後將您應用的 API 呼叫指向 localhost 而非 api.openai.com。一台每月 $30 的 Hetzner 或 DigitalOcean 主機配備足夠的 RAM 就能每天為 7B 量化模型處理數千個請求。加上 Ertas 每月 AU$14.50 的持續訓練迭代費用，無論使用者增長如何，您的 AI 基礎設施總成本保持在每月 $50 以下——而使用商業 API 則需 $600 以上且持續攀升。您擁有模型權重，所以沒有意外棄用、沒有速率限制、在關鍵路徑中沒有第三方依賴。當您需要改進模型時，將新的應用日誌匯入 Vault，在 Studio 中執行另一次微調迭代，然後零停機熱替換 GGUF 檔案。

Key Features

Studio

無程式碼微調

Studio 的視覺化介面為建構產品而非 ML 管線的開發者設計。拖入您的訓練資料，選擇基礎模型，調整少數直覺參數，然後開始訓練。無需 Python 腳本、無需 CUDA 除錯、無需 Hugging Face Trainer 樣板——只有一個乾淨的 UI 產出可生產的模型。

Hub

合適大小的模型選擇

Hub 幫助獨立開發者選擇能解決其特定問題的最小模型。按任務類型、參數數量、量化格式和社群基準篩選。一個精確命中您用例的 3B 模型永遠優於一個勉強能用的 70B 模型——而且它能在您真正負擔得起的硬體上運行。

Cloud

託管訓練基礎設施

Cloud 消除了 GPU 採購問題。在 Ertas 託管的訓練基礎設施上進行微調，無需購買、租用或設定 GPU 實例。按訓練時間付費，而非閒置硬體——然後將完成的模型部署到您自己便宜的基於 CPU 的 VPS 進行推論。

Vault

應用日誌匯入與版本控制

Vault 讓您將應用的真實使用資料作為訓練材料匯入——API 呼叫日誌、使用者對話、回饋訊號和修正資料。為您的資料集進行版本控制，以追蹤每次訓練迭代如何改進模型品質，如果新批次引入雜訊則回滾到先前的資料集。

Example Workflow

一位獨立開發者使用 Cursor 和 Next.js 建構了一個面向學術研究者的 AI 寫作助手，GPT-4o 透過 OpenAI API 處理文字建議、引用格式化和摘要生成。在 200 位 beta 使用者的發布時，API 成本為可控的 $45/月。六個月後，應用已增長到 8,000 位月活躍使用者，每月產生 95,000 次 API 呼叫，OpenAI 帳單已達 $620/月——吞噬了應用 $480/月訂閱收入的全部。開發者註冊 Ertas 並從應用資料庫匯出 3 個月的去識別化 API 呼叫日誌（輸入提示和偏好輸出），產出 28,000 個範例的 JSONL 訓練集。他們將其上傳至 Vault 並使用 Studio 以 LoRA 適配器微調 Phi-3 Mini 3.8B 模型，針對三個核心任務：文字建議、引用格式化和摘要生成。經過 2 個 epoch 在 Cloud 上的訓練，微調模型在留出評估集上的三個任務中都與 GPT-4o 的得分相差 3% 以內——在引用格式化方面實際上優於它，因為它是在真實的學術引用模式上訓練的，而非通用文字。開發者將模型匯出為 Q5_K_M GGUF 檔案，部署在 Hetzner CAX31 ARM VPS（AU$14/月）上運行 Ollama，位於現有 API 閘道後方。每月總成本：AU$14.50 Ertas + AU$14 VPS = AU$28.50，從 AU$620 降下。硬體以 340ms 的中位延遲處理全部 95,000 個每月請求——對寫作助手來說可接受。開發者現在擁有正向的單位經濟學和一個每月透過 Studio 回饋新使用資料而持續改進的模型。