Back to blog
    Windsurf + 微调本地模型:零API成本开发栈
    WindsurfCodeium微调本地模型开发栈segment:vibecoder

    Windsurf + 微调本地模型:零API成本开发栈

    用Windsurf构建的应用默认使用OpenAI API模式。以下是如何为你的特定用例微调本地模型并将推理成本降至零按Token。

    EErtas Team·

    Windsurf by Codeium是2026年最好的AI编码工具之一。它的Cascade系统使多文件编辑和复杂重构感觉自然。问题是Windsurf帮你写的代码——尤其是AI驱动应用的——通常默认遵循OpenAI API模式,因为那是训练数据和文档指向的。

    代码很干净,集成能用,然后六个月后你有了扩展问题。

    Windsurf项目通常如何集成AI

    当你用Windsurf构建带AI功能的应用时,它倾向于使用OpenAI SDK或兼容模式生成代码:

    # Typical Windsurf-generated AI integration
    from openai import OpenAI
    
    client = OpenAI(api_key=settings.OPENAI_API_KEY)
    
    async def process_document(document_text: str) -> str:
        """Process document and extract key information."""
        response = await client.chat.completions.create(
            model="gpt-4o",
            messages=[
                {"role": "system", "content": SYSTEM_PROMPT},
                {"role": "user", "content": document_text}
            ],
            temperature=0.1
        )
        return response.choices[0].message.content

    这是好代码。它能用。每个功能都是规模化时又一个按Token成本。

    出现的成本模式

    Windsurf构建的应用往往比无代码替代品更复杂。AI通常织入核心工作流,不只是附加功能。这意味着更高的每用户API使用量。

    应用类型平均Token/用户/月1K用户月成本10K用户月成本
    文档处理150,000$375$3,750
    内容生成80,000$200$2,000
    分类管道30,000$75$750
    客服机器人50,000$125$1,250

    更好的默认值:微调本地模型

    在你的特定领域上微调的7B模型将达到GPT-4o在你特定文档上准确率的90-95%,零按Token成本。

    零API成本技术栈

    Windsurf(编码)+ Ertas(微调)+ Ollama(服务)+ n8n(自动化)

    Windsurf: 你继续用Windsurf做开发。变化在于你的代码调用什么,不是你如何编写它。

    Ertas: 在你的领域上微调模型。上传JSONL训练数据,选择Qwen 2.5 7B或14B,训练,导出GGUF。

    Ollama: 在本地(开发)或VPS(生产)上运行GGUF。Ollama的API是OpenAI兼容的。Windsurf生成的每段调用OpenAI SDK的代码在更新基础URL后无需修改就能工作。

    n8n: 不需要实时响应的工作流的自托管自动化。n8n有原生Ollama节点,所以你的工作流自动化也是零按Token。

    用Windsurf构建微调工作流

    这是元优势:你可以用Windsurf编写帮助你更好微调的工具。

    数据收集脚本: 提示Windsurf:"写一个脚本查询我们数据库最近30天的AI功能交互,格式化为带instruction/input/output字段的JSONL,并导出到文件。"

    评估工具: 提示Windsurf:"写一个测试脚本,取JSONL测试集,通过OpenAI API和本地Ollama端点运行每个条目,计算输出之间的相似度分数。"

    模型切换抽象: 提示Windsurf:"重构我们的AI客户端初始化以支持在OpenAI和本地Ollama端点之间切换的环境变量,在整个代码库中保持相同接口。"

    一次性设置,永久成本节省

    设置投入:

    • 数据收集:2-4小时
    • 微调:30-90分钟(主要等待)
    • VPS设置 + Ollama:1-2小时
    • 代码更新:1-2小时

    总计:6-12小时工作。

    用户规模月OpenAI (GPT-4o)月本地 (Ertas + VPS)月节省
    1,000用户$375$40.50$334.50
    5,000用户$1,875$40.50$1,834.50
    20,000用户$7,500$66.50$7,433.50

    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    延伸阅读

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading