OpenClaw 开源模型指南：Llama 3、Qwen 2.5 及微调选择建议

OpenClaw 支持通过 OpenAI 兼容 API 提供的任何模型。这包括通过 Ollama、vLLM 和 LM Studio 提供的数十个开源模型。但并非所有模型在 Agent 工作中表现同样出色。

Agent 任务要求一系列特定能力：可靠的指令遵循、精确的工具使用、多步推理和一致的输出格式。擅长创意写作的模型可能在结构化数据提取上失败。推理能力强的模型可能对实时对话 Agent 来说太慢。

本指南对比了领先的 OpenClaw 开源模型，特别关注每个模型微调后的表现。

什么是好的 OpenClaw 模型

在对比模型之前，以下是 OpenClaw 具体需要的能力：

1. 指令遵循

OpenClaw 给模型提供有特定输出格式要求的结构化指令。模型需要精确遵循——偏离预期格式会破坏下游处理。

2. 工具使用

OpenClaw 使用函数调用与工具交互（文件系统、浏览器、消息 API）。模型需要生成语法正确且参数正确的工具调用。

3. 多步推理

许多 OpenClaw 任务涉及操作链：读取邮件 → 分类 → 查找相关上下文 → 起草回复 → 发送。模型需要可靠地规划和执行多步序列。

4. 上下文窗口

OpenClaw 的提示词可能很长——包括对话历史、文件内容、工具输出和系统指令。最低 8K 上下文窗口才实用；文档密集型工作流首选 32K+。

5. 推理速度

对于对话式 Agent 用例（WhatsApp、Slack），响应延迟很重要。用户期望聊天交互的响应时间低于 2 秒。批处理任务（报告生成、邮件分类）对延迟更宽容。

模型对比

Llama 3.3 8B

OpenClaw 优势：

开箱即用的强大指令遵循
良好的工具使用支持（Meta 专门为 Llama 3 训练了函数调用）
128K 上下文窗口
广泛的社区支持和微调资源
跨推理框架的广泛兼容性

劣势：

在结构化数据提取方面略弱于 Qwen
在相同能力级别下内存占用较大

**最适合：**通用 OpenClaw Agent、对话任务、多步工作流

**微调说明：**对 rank 16-32 的 LoRA 微调响应良好。大上下文窗口意味着可以处理文档密集型微调数据集而不会截断。微调后的 Llama 3.3 8B 是 OpenClaw 部署最广泛推荐的起点。

**硬件：**Q5_K_M 量化在 8GB+ RAM 上运行。在 M 系列 Mac 和任何 8GB+ VRAM 的 GPU 上运行良好。

Qwen 2.5 7B

OpenClaw 优势：

出色的结构化输出生成（JSON、表格、schema）
强大的多语言支持（尤其擅长中日韩语言）
擅长数据提取和分类任务
高效的推理速度
128K 上下文窗口

劣势：

在开放式对话中不如 Llama 3.3 自然
社区微调生态系统较小（快速增长中）

**最适合：**数据提取、报告生成、分类任务、多语言部署

**微调说明：**对结构化输出任务的微调特别敏感。如果你的 OpenClaw 工作流以数据提取、发票处理或分类为主，Qwen 2.5 7B 在相同数据集上微调后通常优于 Llama 3.3 8B。使用 rank 16，3-4 个 epoch。

**硬件：**略小于 Llama 3.3，在 8GB+ RAM 上运行良好。在 M 系列 Mac 上表现出色。

Mistral 7B / Mistral Nemo 12B

OpenClaw 优势：

快速推理速度（优化架构）
相对参数量的良好推理能力
Nemo 12B 在 7B 和更大模型之间提供了良好的中间选择
滑动窗口注意力机制用于高效长上下文处理

劣势：

开箱即用的工具使用支持弱于 Llama 3.3
基础 Mistral 7B 上下文窗口较小（32K，但通常足够）
结构化输出格式的一致性较差

**最适合：**速度关键的对话 Agent、延迟敏感的推理密集型任务

**微调说明：**微调响应良好，但工具使用任务需要比 Llama 3.3 更多的训练样本。如果你的 OpenClaw 用例主要是对话式的（聊天支持、邮件起草），Mistral 的速度优势值得评估。

**硬件：**Mistral 7B 非常高效——在 6GB+ RAM 上运行。Nemo 12B 需要 10GB+。

Phi-3 Mini (3.8B) / Phi-3 Medium (14B)

OpenClaw 优势：

Phi-3 Mini 相对其规模能力出众——在非常普通的硬件上运行
尽管参数量小，指令遵循良好
Phi-3 Medium 在可管理的规模中提供接近前沿的推理能力
非常适合边缘部署或资源受限的环境

劣势：

Phi-3 Mini 在复杂的多步 Agent 任务上挣扎
多语言能力有限
社区较小，可用的微调示例较少

**最适合：**受限硬件上的轻量 Agent、简单自动化任务、IoT/边缘部署

**微调说明：**Phi-3 Mini 从微调中受益巨大——小型基础模型有更多领域专属改进空间。对于简单、聚焦的任务（单类别分类、基于模板的回复），微调后的 Phi-3 Mini 可以在极少的计算成本下匹配更大模型。

**硬件：**Phi-3 Mini 在 4GB RAM 上运行。Phi-3 Medium 需要 12GB+。

按用例推荐

OpenClaw 用例	推荐基础模型	原因
通用 Agent	Llama 3.3 8B	最全面的指令遵循和工具使用
邮件分类和回复	Llama 3.3 8B 或 Qwen 2.5 7B	两者都强；Qwen 在分类上略有优势
文档/数据提取	Qwen 2.5 7B	最佳结构化输出生成
客户支持聊天	Llama 3.3 8B	自然的对话语调
报告生成	Qwen 2.5 7B	一致的模板遵守
多语言 Agent	Qwen 2.5 7B	最强的多语言支持
速度关键的聊天	Mistral 7B	此能力层级中最快的推理
资源受限部署	Phi-3 Mini 3.8B	在最少硬件上运行
复杂推理任务	Mistral Nemo 12B 或 Phi-3 Medium 14B	更多参数用于更难的问题
机构（按客户适配器）	Llama 3.3 8B	最佳 LoRA 适配器生态系统，广泛兼容

OpenClaw 量化指南

量化级别影响质量和速度。以下是每个级别在 Agent 任务中的表现：

量化	质量影响	速度	RAM 需求（7B）	推荐用于
Q8_0	损失极小	基线	~8GB	质量关键任务、评估
Q6_K	近乎无损	快 10%	~7GB	生产 Agent 工作（推荐默认）
Q5_K_M	非常轻微损失	快 20%	~6GB	大多数部署的良好平衡
Q4_K_M	在复杂任务上明显	快 30%	~5GB	简单任务、速度关键
Q4_K_S	有意义的质量下降	快 35%	~4.5GB	不推荐用于 Agent 工作

**对于 OpenClaw，Q5_K_M 或 Q6_K 是最佳选择。**Agent 任务涉及链式推理，质量下降会在步骤间累积。Q4 量化带来的小幅速度提升不值得多步工作流中可靠性的损失。

微调策略

无论选择哪个基础模型，微调方法都类似：

数据准备

导出你的 OpenClaw 交互日志（最常处理的任务）
格式化为 JSONL 格式的指令/回复对
如果你的工作流使用工具调用，包含相关示例
包含多步推理链示例
目标 500-2,000 个示例

训练配置

LoRA rank：16（从这里开始；如果准确率停滞，增加到 32）
Epoch：3-4（在验证集上监控过拟合）
学习率：2e-4（LoRA 微调的标准值）

评估

在留出的数据集（20% 的数据）上测试
衡量任务特定准确率（分类 F1、schema 合规率、回复质量）
与相同测试集上的基础模型进行对比，量化改进

迭代

从生产使用中收集错误分类的样本
添加到训练集中
重新微调（通常 1-2 次迭代即可达到生产质量）

使用 Ertas Studio，整个过程——上传、配置、训练、评估、导出 GGUF——每次迭代需要 30-90 分钟，无需编写代码。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

开始使用

根据上面的建议选择基础模型
通过 Ollama 拉取：ollama pull llama3.3:8b 或 ollama pull qwen2.5:7b
使用 OpenClaw 在你的实际任务上测试以建立基准
从你的工作流中收集训练数据（500+ 个示例）
在 Ertas Studio 上微调——上传、训练、导出 GGUF
通过 Ollama 部署微调模型并与基准对比

大多数团队从 Llama 3.3 8B 开始（最安全的全面选择），微调一次，然后评估是否有不同的基础模型能更好地服务于他们的特定工作负载。微调投资（几百个训练样本）是可转移的——你始终可以使用相同的数据集在不同的基础模型上重新微调。

OpenClaw 开源模型指南：Llama 3、Qwen 2.5 及微调选择建议

什么是好的 OpenClaw 模型

1. 指令遵循

2. 工具使用

3. 多步推理

4. 上下文窗口

5. 推理速度

模型对比

Llama 3.3 8B

Qwen 2.5 7B

Mistral 7B / Mistral Nemo 12B

Phi-3 Mini (3.8B) / Phi-3 Medium (14B)

按用例推荐

OpenClaw 量化指南

微调策略

数据准备

训练配置

评估

迭代

开始使用

Ship AI that runs on your users' devices.

Keep reading

用微调模型驱动的自定义技能扩展 OpenClaw

OpenClaw + 微调模型 vs. OpenClaw + GPT-4：一次实际对比

如何使用微调本地模型驱动 OpenClaw（零 API 费用）