
Windsurf 加微調本地模型:零 API 成本開發堆疊
用 Windsurf 構建的應用程式默認使用 OpenAI API 模式。以下是如何為你的特定使用場景微調本地模型,並將推理成本降至零每個 token。
Codeium 的 Windsurf 是 2026 年最好的 AI 編碼工具之一。它的 Cascade 系統使多文件編輯和複雜重構感覺很自然。問題在於 Windsurf 幫助你編寫的程式碼——特別是對於 AI 驅動的應用程式——通常默認遵循 OpenAI API 模式,因為訓練資料和文件指向這個方向。
程式碼是乾淨的,整合是有效的,然後六個月後你遇到了擴展問題。
Windsurf 專案通常如何整合 AI
當你使用 Windsurf 構建帶有 AI 功能的應用程式時,它傾向於使用 OpenAI SDK 或相容模式生成程式碼:
# 典型的 Windsurf 生成的 AI 整合
from openai import OpenAI
client = OpenAI(api_key=settings.OPENAI_API_KEY)
async def process_document(document_text: str) -> str:
"""處理文件並提取關鍵資訊。"""
response = await client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": SYSTEM_PROMPT},
{"role": "user", "content": document_text}
],
temperature=0.1
)
return response.choices[0].message.content
這是好的程式碼。它有效。Windsurf 會為內容生成、分類、提取和摘要功能編寫類似的模式。每個都是規模化時的另一個按 token 計費成本。
出現的成本模式
Windsurf 構建的應用 程式往往比無程式碼替代方案更複雜。AI 通常被織入核心工作流程,而不只是作為可有可無的功能添加。這意味著更高的每用戶 API 使用量。
| 應用程式類型 | 平均 token/用戶/月 | 1K 用戶月費 | 10K 用戶月費 |
|---|---|---|---|
| 文件處理 | 150,000 | $375 | $3,750 |
| 內容生成 | 80,000 | $200 | $2,000 |
| 分類管線 | 30,000 | $75 | $750 |
| 客戶支援機器人 | 50,000 | $125 | $1,250 |
這些假設 GPT-4o 的輸入 $2.50/100 萬 token,輸出 $10.00/100 萬 token。gpt-4o-mini 更便宜,但仍然按 token 計費。
更好的默認方案:微調的本地模型
要打破的模式很簡單:不是為每個推理請求調用雲端 API,而是在你的特定領域上微調模型並在本地運行它。對於狹窄任務,準確率的折衷可以忽略不計;成本折衷是巨大的。
對於上面的文件處理示例:一個在你的文件類型和提取要求上微調的 7B 模型,對你的特定文件將達到 GPT-4o 準確率的 90 至 95%,每個 token 的成本為零。差異對用戶不可見。你的基礎設施成本差異是 375 至 3,750 美元/月。
零 API 成本堆疊
Windsurf(編碼)加 Ertas(微調)加 Ollama(服務)加 n8n(自動化)
每一層:
Windsurf: 你繼續使用 Windsurf 進行開發。它對於編寫和重構你的程式碼仍然非常出色。改變的是你的程式碼調用什麼,而非你如何編寫它。
Ertas: 在你的領域上微調模型。上傳 JSONL 訓練資料(從現有 API 日誌提取或手動整理),選擇 Qwen 2.5 7B 或 14B,訓練,匯出 GGUF。這在你的模型的每個主要版本發生一次。
Ollama: 在本地(開發)或 VPS(生產)上運行 GGUF。Ollama 的 API 與 OpenAI 相容。Windsurf 生成的調用 OpenAI SDK 的每一段程式碼,在你更新基礎 URL 後無需修改即可工作。
n8n: 用於不需要實時回應的工作流程的自托管自動化。文件處理批次、定時豐富化、異步生成管線。n8n 有一個原生的 Ollama 節點,所以你的工作流程自動化也是零每個 token 的費用。
使用 Windsurf 構建微調工作流程
這是元優勢:你可以使用 Windsurf 來編寫幫助你更好地微調的工具。
資料收集腳本: 提示 Windsurf:「編寫一個腳本,查詢我們資料庫過去 30 天的 AI 功能互動,將它們格式化為帶有 instruction/input/output 字段的 JSONL,並匯出到文件。過濾掉用戶立即重新生成的互動。」
Windsurf 在幾分鐘內編寫出乾淨的資料提取腳本。你得到了你的訓練資料集。
評估框架: 提示 Windsurf:「編寫一個測試腳本,接受 JSONL 測試集,通過 OpenAI API 和我們的本地 Ollama 端點運行每個項目,並計算輸出之間的相似度分數。」
現在你可以在切換之前客觀地對比你的微調模型和 GPT-4o 基準。
模型切換抽象: 提示 Windsurf:「重構我們的 AI 客戶端初始化,以支持在 OpenAI 和本地 Ollama 端點之間切換的環境變數,在整個程式碼庫中保持相同的介面。」
Windsurf 重構所有相關文件。你有一個乾淨的在 API 和本地模型之間切換的抽象。
一次性設置,永久成本節省
設置這個的投入:
- 資料收集:2 至 4 小時(包括用 Windsurf 的幫助編寫提取腳本)
- 微調:30 至 90 分鐘(大部分是等待)
- VPS 設置加 Ollama:1 至 2 小時
- 程式碼更新:1 至 2 小時(加 Windsurf 幫助重 構)
總計:6 至 12 小時工作。
5,000 用戶時的月節省(文件處理示例):$375 - $40.50 = $334.50/月。
投資回報率:設置工作在第一個月就能回本。每個後續月份都是純節省。
| 用戶規模 | OpenAI 月費(GPT-4o) | 本地月費(Ertas 加 VPS) | 月節省 |
|---|---|---|---|
| 1,000 用戶 | $375 | $40.50 | $334.50 |
| 5,000 用戶 | $1,875 | $40.50 | $1,834.50 |
| 20,000 用戶 | $7,500 | $66.50 | $7,433.50 |
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
延伸閱讀
- Vibecoder AI 成本指南:所有平台 — 每個主要構建平台如何遇到成本懸崖
- Cursor 到生產:無供應商鎖定的 AI — 針對 Cursor 構建的應用程式的類似方法
- n8n 加 Ollama 微調零成本堆疊 — 添加零每任務費用的自動化
- 獨立應用的固定成本 AI 架構 — 從一開始就設計次線性成本
- 在本地運行 AI 模型 — Ollama 設置和配置指南
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Replit App AI Costs Exploding? Replace OpenAI with a Fine-Tuned Local Model
Replit's always-on deployment and easy AI integration create a specific API cost problem. Here's how to replace OpenAI with a fine-tuned local model and cut costs to flat rate.

Shopify AI Assistant Without OpenAI API Costs: The Local Model Approach
Shopify stores spending $500-5,000/month on AI API costs can replace those calls with a local fine-tuned model. Here's the architecture, the Shopify integration, and the cost math.

MCP + Fine-Tuned Local Model: Connect Claude to Your Domain-Specific AI
Model Context Protocol (MCP) lets Claude Desktop talk to any server — including your own Ollama-hosted fine-tuned model. Here's the architecture and setup for routing Claude requests to a custom domain model.