如何使用微调本地模型驱动 OpenClaw（零 API 费用）

OpenClaw 已经席卷了 AI Agent 领域——在 GitHub 上获得了 180,000+ 星标，一周内超过两百万访客。它连接你的即时通讯应用（WhatsApp、Telegram、Slack、Discord），运行 shell 命令，管理文件，控制浏览器，基本上充当了每个人都希望 Siri 能做到的 AI 助手。

但在热潮背后隐藏着一个成本问题。

默认情况下，OpenClaw 将每次交互通过云 API 路由——OpenAI、Anthropic 或 Google。每个提示词、它读取的每个文件、它执行的每个浏览器操作都会产生 token。而 token 需要付费。如果你将 OpenClaw 作为日常生产力工具使用，每月可以轻松消耗 $50-150 的 API 额度。对于为客户部署它的机构来说，乘以每个客户。

解决方案很简单：在本地模型上运行 OpenClaw。而性能优化方案更好：在微调的本地模型上运行。

为什么本地模型对 OpenClaw 有意义

OpenClaw 的架构已经支持本地模型后端。它可以连接到任何提供 OpenAI 兼容 API 的推理服务器——包括 Ollama、vLLM、LM Studio 和 LiteLLM。配置只需要在 openclaw.json 文件中添加几行。

经济计算很简单：

	云 API（GPT-4o）	本地微调模型
每 1K token 费用	$0.005-0.03	$0（硬件之后）
月费（重度使用）	$50-150	仅电费
数据隐私	发送到第三方服务器	留在你的机器上
定制化	仅提示词工程	针对你的领域微调

但成本只是一半。真正的优势在于你特定任务上的性能。

通用模型 vs 微调模型用于 Agent 工作

OpenClaw 的表现取决于驱动它的模型。通用的 GPT-4o 或 Claude 能很好地处理广泛任务，但大多数人使用 OpenClaw 是为了一组狭窄的重复工作流——排程、邮件分类、报告生成、数据提取、客户沟通。

对于这些重复性、领域专属的任务，微调的 7B 模型始终优于通用前沿模型：

支持工单分类：微调 94% 准确率 vs 提示词工程 GPT-4 的 71%
文档分类：微调模型学习你的特定分类体系，而非通用近似
邮件起草：在几百个样本训练后匹配你的语调和风格
数据提取：学习你的 schema 和边缘情况，而不是从指令中猜测

关键洞察：OpenClaw 大部分任务不需要前沿模型的智能。它需要在你的任务上可靠、一致的表现。这正是微调所能提供的。

使用 Ollama 和微调模型设置 OpenClaw

以下是分步过程：

步骤 1：微调你的模型

从适合 Agent 工作的基础模型开始——Llama 3.3 8B 或 Qwen 2.5 7B 在指令遵循和工具使用方面表现出色。使用与你的 OpenClaw 工作流相关的示例进行微调：

如果你使用 OpenClaw 处理邮件：使用你发送的邮件进行训练（输入：上下文/线程，输出：你的回复）
如果用于报告：使用你的报告模板和数据模式进行训练
如果用于客户支持：使用你的工单历史和解决方案进行训练

你需要 500-2,000 个高质量示例才能获得有意义的改进。将训练好的模型导出为 GGUF 格式。

使用 Ertas Studio，这大约需要 30 分钟——上传你的数据集，选择基础模型，配置微调运行，训练完成后下载 GGUF。无需 Python，无需 CLI，无需 GPU 设置。

步骤 2：通过 Ollama 部署

获得 GGUF 文件和相应的 Modelfile 后：

# 从你的微调 GGUF 创建 Ollama 模型
ollama create my-openclaw-model -f ./Modelfile

# 验证运行
ollama run my-openclaw-model "总结这份会议记录"

Ollama 在 http://127.0.0.1:11434/v1 本地提供模型服务，使用 OpenAI 兼容 API。

步骤 3：配置 OpenClaw

通过更新模型提供商配置将 OpenClaw 指向你的本地 Ollama 实例：

{
  "models": {
    "providers": [
      {
        "name": "local-finetuned",
        "api": "openai-completions",
        "baseUrl": "http://127.0.0.1:11434/v1",
        "models": ["my-openclaw-model"]
      }
    ]
  }
}

就是这样。OpenClaw 现在通过你的本地微调模型路由所有推理。无需 API 密钥，无 token 费用，无数据离开你的机器。

对于机构：按客户部署的 OpenClaw Agent

如果你经营一家 AI 机构，经济效益更加引人注目。你可以：

为每个客户微调 LoRA 适配器——每个 50-200MB，使用该客户的特定数据训练
在一台机器上运行单个基础模型（Mac Studio、RTX 4090 服务器或云 GPU）
在推理时交换适配器——Ollama 支持动态加载不同的适配器
向客户收取固定月费，零可变 API 成本侵蚀你的利润

管理 15 个客户的机构从每月 AU$4,200 的 API 成本降至推理成本基本为 AU$0。硬件在不到一个月内收回成本。

Agent 工作负载的性能调优

从本地模型与 OpenClaw 获得最佳效果的一些技巧：

**量化级别很重要。**对于需要推理和工具使用的 Agent 任务，Q5_K_M 或 Q6_K 量化在速度和质量之间取得了正确的平衡。避免在复杂的多步骤工作流中使用 Q4_K_S——质量损失会在链式操作中累积。

**上下文窗口大小。**OpenClaw 在结合对话历史、文件内容和工具输出时可以生成很长的提示词。选择至少 8K 上下文的基础模型，如果你的工作流涉及大型文档，考虑 32K+。

**系统提示词对齐。**使用与 OpenClaw 使用的相同系统提示词结构进行微调。这确保模型的训练数据与其运行时环境匹配。

**定时任务和心跳任务。**OpenClaw 的定时任务（收件箱监控、指标检查）产生持续的 token 吞吐量。本地模型将这些从持续成本变为免费操作。

何时继续使用云 API

本地微调模型并非所有场景的最佳选择。在以下情况下保留云 API：

你的微调模型未见过的新颖、一次性任务
确实受益于前沿智能的复杂多步骤推理
你的微调数据仅覆盖一种语言的多语言任务
在你有足够示例进行微调之前的快速原型开发

实际方法是混合的：将常规任务路由到本地模型，边缘情况回退到云 API。OpenClaw 的模型提供商配置支持多个后端，因此你可以通过条件路由来设置。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

开始使用

从云 API 费用到本地推理的最快路径：

导出你的 OpenClaw 对话历史样本（它最常处理的任务）
格式化为训练数据（JSONL 格式的指令/回复对）
在 Ertas Studio 上微调——上传、配置、训练、下载 GGUF
通过 Ollama 部署并更新你的 OpenClaw 配置

大多数团队在第一周就能看到显著的成本节省，在第一次微调迭代中就能获得更好的领域专属性能。随着你从实际使用中添加更多示例，模型在每轮微调中都会改进。

你的 AI Agent 应该为你工作——而不是给 OpenAI 创造账单。