Windsurf 加微調本地模型：零 API 成本開發堆疊

Codeium 的 Windsurf 是 2026 年最好的 AI 編碼工具之一。它的 Cascade 系統使多文件編輯和複雜重構感覺很自然。問題在於 Windsurf 幫助你編寫的程式碼——特別是對於 AI 驅動的應用程式——通常默認遵循 OpenAI API 模式，因為訓練資料和文件指向這個方向。

程式碼是乾淨的，整合是有效的，然後六個月後你遇到了擴展問題。

Windsurf 專案通常如何整合 AI

當你使用 Windsurf 構建帶有 AI 功能的應用程式時，它傾向於使用 OpenAI SDK 或相容模式生成程式碼：

# 典型的 Windsurf 生成的 AI 整合
from openai import OpenAI

client = OpenAI(api_key=settings.OPENAI_API_KEY)

async def process_document(document_text: str) -> str:
    """處理文件並提取關鍵資訊。"""
    response = await client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": SYSTEM_PROMPT},
            {"role": "user", "content": document_text}
        ],
        temperature=0.1
    )
    return response.choices[0].message.content

這是好的程式碼。它有效。Windsurf 會為內容生成、分類、提取和摘要功能編寫類似的模式。每個都是規模化時的另一個按 token 計費成本。

出現的成本模式

Windsurf 構建的應用程式往往比無程式碼替代方案更複雜。AI 通常被織入核心工作流程，而不只是作為可有可無的功能添加。這意味著更高的每用戶 API 使用量。

應用程式類型	平均 token/用戶/月	1K 用戶月費	10K 用戶月費
文件處理	150,000	$375	$3,750
內容生成	80,000	$200	$2,000
分類管線	30,000	$75	$750
客戶支援機器人	50,000	$125	$1,250

這些假設 GPT-4o 的輸入 $2.50/100 萬 token，輸出 $10.00/100 萬 token。gpt-4o-mini 更便宜，但仍然按 token 計費。

更好的默認方案：微調的本地模型

要打破的模式很簡單：不是為每個推理請求調用雲端 API，而是在你的特定領域上微調模型並在本地運行它。對於狹窄任務，準確率的折衷可以忽略不計；成本折衷是巨大的。

對於上面的文件處理示例：一個在你的文件類型和提取要求上微調的 7B 模型，對你的特定文件將達到 GPT-4o 準確率的 90 至 95%，每個 token 的成本為零。差異對用戶不可見。你的基礎設施成本差異是 375 至 3,750 美元/月。

零 API 成本堆疊

Windsurf（編碼）加 Ertas（微調）加 Ollama（服務）加 n8n（自動化）

每一層：

Windsurf： 你繼續使用 Windsurf 進行開發。它對於編寫和重構你的程式碼仍然非常出色。改變的是你的程式碼調用什麼，而非你如何編寫它。

Ertas： 在你的領域上微調模型。上傳 JSONL 訓練資料（從現有 API 日誌提取或手動整理），選擇 Qwen 2.5 7B 或 14B，訓練，匯出 GGUF。這在你的模型的每個主要版本發生一次。

Ollama： 在本地（開發）或 VPS（生產）上運行 GGUF。Ollama 的 API 與 OpenAI 相容。Windsurf 生成的調用 OpenAI SDK 的每一段程式碼，在你更新基礎 URL 後無需修改即可工作。

n8n： 用於不需要實時回應的工作流程的自托管自動化。文件處理批次、定時豐富化、異步生成管線。n8n 有一個原生的 Ollama 節點，所以你的工作流程自動化也是零每個 token 的費用。

使用 Windsurf 構建微調工作流程

這是元優勢：你可以使用 Windsurf 來編寫幫助你更好地微調的工具。

資料收集腳本： 提示 Windsurf：「編寫一個腳本，查詢我們資料庫過去 30 天的 AI 功能互動，將它們格式化為帶有 instruction/input/output 字段的 JSONL，並匯出到文件。過濾掉用戶立即重新生成的互動。」

Windsurf 在幾分鐘內編寫出乾淨的資料提取腳本。你得到了你的訓練資料集。

評估框架： 提示 Windsurf：「編寫一個測試腳本，接受 JSONL 測試集，通過 OpenAI API 和我們的本地 Ollama 端點運行每個項目，並計算輸出之間的相似度分數。」

現在你可以在切換之前客觀地對比你的微調模型和 GPT-4o 基準。

模型切換抽象： 提示 Windsurf：「重構我們的 AI 客戶端初始化，以支持在 OpenAI 和本地 Ollama 端點之間切換的環境變數，在整個程式碼庫中保持相同的介面。」

Windsurf 重構所有相關文件。你有一個乾淨的在 API 和本地模型之間切換的抽象。

一次性設置，永久成本節省

設置這個的投入：

資料收集：2 至 4 小時（包括用 Windsurf 的幫助編寫提取腳本）
微調：30 至 90 分鐘（大部分是等待）
VPS 設置加 Ollama：1 至 2 小時
程式碼更新：1 至 2 小時（加 Windsurf 幫助重構）

總計：6 至 12 小時工作。

5,000 用戶時的月節省（文件處理示例）：$375 - $40.50 = $334.50/月。

投資回報率：設置工作在第一個月就能回本。每個後續月份都是純節省。

用戶規模	OpenAI 月費（GPT-4o）	本地月費（Ertas 加 VPS）	月節省
1,000 用戶	$375	$40.50	$334.50
5,000 用戶	$1,875	$40.50	$1,834.50
20,000 用戶	$7,500	$66.50	$7,433.50

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

Windsurf 加微調本地模型：零 API 成本開發堆疊

Windsurf 專案通常如何整合 AI

出現的成本模式

更好的默認方案：微調的本地模型

零 API 成本堆疊

使用 Windsurf 構建微調工作流程

一次性設置，永久成本節省

延伸閱讀

Ship AI that runs on your users' devices.

Keep reading

Cursor + MCP + 微調模型：代碼編輯器內的領域 AI

LangChain + 微調本地模型：無 API 成本的管道構建

MCP + 微調本地模型：將 Claude 連接到你的特定領域 AI