Back to blog
    Windsurf 加微調本地模型:零 API 成本開發堆疊
    windsurfcodeiumfine-tuninglocal-modeldev-stacksegment:vibecoder

    Windsurf 加微調本地模型:零 API 成本開發堆疊

    用 Windsurf 構建的應用程式默認使用 OpenAI API 模式。以下是如何為你的特定使用場景微調本地模型,並將推理成本降至零每個 token。

    EErtas Team·

    Codeium 的 Windsurf 是 2026 年最好的 AI 編碼工具之一。它的 Cascade 系統使多文件編輯和複雜重構感覺很自然。問題在於 Windsurf 幫助你編寫的程式碼——特別是對於 AI 驅動的應用程式——通常默認遵循 OpenAI API 模式,因為訓練資料和文件指向這個方向。

    程式碼是乾淨的,整合是有效的,然後六個月後你遇到了擴展問題。

    Windsurf 專案通常如何整合 AI

    當你使用 Windsurf 構建帶有 AI 功能的應用程式時,它傾向於使用 OpenAI SDK 或相容模式生成程式碼:

    # 典型的 Windsurf 生成的 AI 整合
    from openai import OpenAI
    
    client = OpenAI(api_key=settings.OPENAI_API_KEY)
    
    async def process_document(document_text: str) -> str:
        """處理文件並提取關鍵資訊。"""
        response = await client.chat.completions.create(
            model="gpt-4o",
            messages=[
                {"role": "system", "content": SYSTEM_PROMPT},
                {"role": "user", "content": document_text}
            ],
            temperature=0.1
        )
        return response.choices[0].message.content

    這是好的程式碼。它有效。Windsurf 會為內容生成、分類、提取和摘要功能編寫類似的模式。每個都是規模化時的另一個按 token 計費成本。

    出現的成本模式

    Windsurf 構建的應用程式往往比無程式碼替代方案更複雜。AI 通常被織入核心工作流程,而不只是作為可有可無的功能添加。這意味著更高的每用戶 API 使用量。

    應用程式類型平均 token/用戶/月1K 用戶月費10K 用戶月費
    文件處理150,000$375$3,750
    內容生成80,000$200$2,000
    分類管線30,000$75$750
    客戶支援機器人50,000$125$1,250

    這些假設 GPT-4o 的輸入 $2.50/100 萬 token,輸出 $10.00/100 萬 token。gpt-4o-mini 更便宜,但仍然按 token 計費。

    更好的默認方案:微調的本地模型

    要打破的模式很簡單:不是為每個推理請求調用雲端 API,而是在你的特定領域上微調模型並在本地運行它。對於狹窄任務,準確率的折衷可以忽略不計;成本折衷是巨大的。

    對於上面的文件處理示例:一個在你的文件類型和提取要求上微調的 7B 模型,對你的特定文件將達到 GPT-4o 準確率的 90 至 95%,每個 token 的成本為零。差異對用戶不可見。你的基礎設施成本差異是 375 至 3,750 美元/月。

    零 API 成本堆疊

    Windsurf(編碼)加 Ertas(微調)加 Ollama(服務)加 n8n(自動化)

    每一層:

    Windsurf: 你繼續使用 Windsurf 進行開發。它對於編寫和重構你的程式碼仍然非常出色。改變的是你的程式碼調用什麼,而非你如何編寫它。

    Ertas: 在你的領域上微調模型。上傳 JSONL 訓練資料(從現有 API 日誌提取或手動整理),選擇 Qwen 2.5 7B 或 14B,訓練,匯出 GGUF。這在你的模型的每個主要版本發生一次。

    Ollama: 在本地(開發)或 VPS(生產)上運行 GGUF。Ollama 的 API 與 OpenAI 相容。Windsurf 生成的調用 OpenAI SDK 的每一段程式碼,在你更新基礎 URL 後無需修改即可工作。

    n8n: 用於不需要實時回應的工作流程的自托管自動化。文件處理批次、定時豐富化、異步生成管線。n8n 有一個原生的 Ollama 節點,所以你的工作流程自動化也是零每個 token 的費用。

    使用 Windsurf 構建微調工作流程

    這是元優勢:你可以使用 Windsurf 來編寫幫助你更好地微調的工具。

    資料收集腳本: 提示 Windsurf:「編寫一個腳本,查詢我們資料庫過去 30 天的 AI 功能互動,將它們格式化為帶有 instruction/input/output 字段的 JSONL,並匯出到文件。過濾掉用戶立即重新生成的互動。」

    Windsurf 在幾分鐘內編寫出乾淨的資料提取腳本。你得到了你的訓練資料集。

    評估框架: 提示 Windsurf:「編寫一個測試腳本,接受 JSONL 測試集,通過 OpenAI API 和我們的本地 Ollama 端點運行每個項目,並計算輸出之間的相似度分數。」

    現在你可以在切換之前客觀地對比你的微調模型和 GPT-4o 基準。

    模型切換抽象: 提示 Windsurf:「重構我們的 AI 客戶端初始化,以支持在 OpenAI 和本地 Ollama 端點之間切換的環境變數,在整個程式碼庫中保持相同的介面。」

    Windsurf 重構所有相關文件。你有一個乾淨的在 API 和本地模型之間切換的抽象。

    一次性設置,永久成本節省

    設置這個的投入:

    • 資料收集:2 至 4 小時(包括用 Windsurf 的幫助編寫提取腳本)
    • 微調:30 至 90 分鐘(大部分是等待)
    • VPS 設置加 Ollama:1 至 2 小時
    • 程式碼更新:1 至 2 小時(加 Windsurf 幫助重構)

    總計:6 至 12 小時工作。

    5,000 用戶時的月節省(文件處理示例):$375 - $40.50 = $334.50/月

    投資回報率:設置工作在第一個月就能回本。每個後續月份都是純節省。

    用戶規模OpenAI 月費(GPT-4o)本地月費(Ertas 加 VPS)月節省
    1,000 用戶$375$40.50$334.50
    5,000 用戶$1,875$40.50$1,834.50
    20,000 用戶$7,500$66.50$7,433.50

    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    延伸閱讀

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading