
OpenClaw 的開源模型:Llama 3、Qwen 2.5,以及應該微調哪個
並非所有開源模型作為 OpenClaw 後端的效果都相同。以下是 Llama 3.3、Qwen 2.5、Mistral 和 Phi-3 在代理任務上的實際比較,以及微調建議。
OpenClaw 支援任何通過 OpenAI 相容 API 提供服務的模型。這包括通過 Ollama、vLLM 和 LM Studio 提供的數十個開源模型。但並非所有模型在代理工作上的表現都相同。
代理任務需要特定的能力組合:可靠的指令遵循、準確的工具使用、多步驟推理和一致的輸出格式。擅長創意寫作的模型可能在結構化資料提取上失敗。具有強大推理能力的模型可能對實時對話代理來說太慢。
本指南比較了 OpenClaw 的主要開源模型,特別關注每個模型在微調後的表現。
OpenClaw 好模型的特徵
在比較模型之前,以下是 OpenClaw 具體需要什麼:
1. 指令遵循
OpenClaw 給模型提供具有特定輸出格式要求的結構化指令。模型需要精確遵循這些要求——偏離預期格式會破壞下游處理。
2. 工具使用
OpenClaw 使用函數調用與工具互動(文件系統、瀏覽器、消息 API)。模型需要生成具有正確參數的語法正確的工具調用。
3. 多步驟推理
許多 OpenClaw 任務涉及行動鏈:讀取電子郵件 → 分類 → 查找相關上下文 → 起草回覆 → 發送。模型需要可靠地規劃和執行多步驟序列。
4. 上下文視窗
OpenClaw 提示詞可能很長——它們包括對話歷史、文件內容、工具輸出和系統指令。最少 8K 的上下文視窗是實際需要;對於文件密集的工作流程,32K 以上是首選。
5. 推理速度
對於對話代理使用案例(WhatsApp、Slack),回應延遲很重要。用戶期望聊天互動的回應時間低於 2 秒。批量處理任務(報告生成、電子郵件分類)對延遲更寬容。
模型比較
Llama 3.3 8B
OpenClaw 的優勢:
- 出色的開箱即用指令遵循
- 良好的工具使用支援(Meta 專門為 Llama 3 訓練了函數調用)
- 128K 上下文視窗
- 廣泛的社群支援和微調資源
- 跨推理框架的廣泛相容性
弱點:
- 與 Qwen 相比,結構化資料提取稍弱
- 在相同能力水平下,與某些替代方案相比內存佔用更大
最適合: 通用 OpenClaw 代理、對話任務、多步驟工作流程
微調說明: 對 rank 16-32 的 LoRA 微調反應良好。大型上下文視窗意味著它可以處理文件密集的微調資料集而不會截斷。微調後的 Llama 3.3 8B 是 OpenClaw 部署最廣泛推薦的起點。
硬體: Q5_K_M 量化在 8GB 以上的記憶體上運行。在 M 系列 Mac、任何擁有 8GB 以上 VRAM 的 GPU 上運行流暢。
Qwen 2.5 7B
OpenClaw 的優勢:
- 出色的結構化輸出生成(JSON、表格、架構)
- 強大的多語言支援(尤其擅長中文)
- 擅長資料提取和分類任務
- 高效的推理速度
- 128K 上下文視窗
弱點:
- 與 Llama 3.3 相比,開放式對話稍不自然
- 更小的社群微調生態系統(快速增長中)
最適合: 資料提取、報告生成、分類任務、多語言部署
微調說明: 對結構化輸出任務的微調特別敏感。如果您的 OpenClaw 工作流程大量涉及資料提取、發票處理或分類,Qwen 2.5 7B 在相同資料集上微調後通常優於 Llama 3.3 8B。使用 rank 16,3-4 個 epoch。
硬體: 比 Llama 3.3 稍小,在 8GB 以上記憶體上運行良好。在 M 系列 Mac 上表現出色。
Mistral 7B / Mistral Nemo 12B
OpenClaw 的優勢:
- 快速的推理速度(優化的架構)
- 相對於參數數量的良好推理能力
- Nemo 12B 在 7B 和更大模型之間提供了良好的中間地帶
- 用於高效長上下文處理的滑動視窗注意力
弱點:
- 開箱即用的工具使用支援比 Llama 3.3 弱
- 基礎 Mistral 7B 的上下文視窗較小(32K,雖然通常足夠)
- 結構化輸出格式不夠一致
最適合: 速度關鍵的對話代理、延遲很重要的推理密集型任務
微調說明: 對微調反應良好,但與 Llama 3.3 相比,工具使用任務需要更多訓練示例。如果您的 OpenClaw 使用案例主要是對話性的(聊天支援、電子郵件草稿),Mistral 的速度優勢值得評估。
硬體: Mistral 7B 效率極高——在 6GB 以上記憶體上運行。Nemo 12B 需要 10GB 以上。
Phi-3 Mini(3.8B)/ Phi-3 Medium(14B)
OpenClaw 的優勢:
- Phi-3 Mini 的能力對其大小而言非常出色——可在非常有限的硬體上運行
- 儘管參數數量小,指令遵循能力良好
- Phi-3 Medium 在可管理的包中提供接近前沿的推理
- 非常適合邊緣部署或資源受限的環境
弱點:
- Phi-3 Mini 在複雜的多步驟代理任務上表現困難
- 有限的多語言能力
- 更小的社群和可用的微調示例更少
最適合: 受限硬體上的輕量代理、簡單自動化任務、物聯網/邊緣部署
微調說明: Phi-3 Mini 從微調中受益巨大——小型基礎模型有更多空間進行特定領域的改進。對於簡單、集中的任務(單類別分類、基於模板的回應),微調後的 Phi-3 Mini 可以以更少的計算費用匹配更大的模型。
硬體: Phi-3 Mini 在 4GB 記憶體上運行。Phi-3 Medium 需要 12GB 以上。
按使用案例推薦
| OpenClaw 使用案例 | 推薦基礎模型 | 原因 |
|---|---|---|
| 通用代理 | Llama 3.3 8B | 最佳全面指令遵循和工具使用 |
| 電子郵件分類和回覆 | Llama 3.3 8B 或 Qwen 2.5 7B | 兩者都很強;Qwen 在分類上略勝 |
| 文件/資料提取 | Qwen 2.5 7B | 最佳結構化輸出生成 |
| 客戶支援聊天 | Llama 3.3 8B | 自然的對話語氣 |
| 報告生成 | Qwen 2.5 7B | 一致的模板遵守 |
| 多語言代理 | Qwen 2.5 7B | 最強的多語言支援 |
| 速度關鍵的聊天 | Mistral 7B | 這個能力層的最快推理 |
| 資源受限的部署 | Phi-3 Mini 3.8B | 在最低硬體上運行 |
| 複雜推理任務 | Mistral Nemo 12B 或 Phi-3 Medium 14B | 更多參數應對更難的問題 |
| 代理商(每客戶適配器) | Llama 3.3 8B | 最佳 LoRA 適配器生態系統,廣泛相容性 |
OpenClaw 的量化指南
量化水平會影響質量和速度。以下是每個水平在代理任務上的表現:
| 量化 | 質量影響 | 速度 | 所需記憶體(7B) | 推薦用途 |
|---|---|---|---|---|
| Q8_0 | 損失極小 | 基準 | 約 8GB | 質量關鍵任務、評估 |
| Q6_K | 幾乎無損 | 快 10% | 約 7GB | 生產代理工作(推薦默認值) |
| Q5_K_M | 極輕微損失 | 快 20% | 約 6GB | 大多數部署的良好平衡 |
| Q4_K_M | 複雜任務可察覺 | 快 30% | 約 5GB | 簡單任務、速度關鍵 |
| Q4_K_S | 顯著質量下降 | 快 35% | 約 4.5GB | 不推薦用於代理工作 |
對於 OpenClaw,Q5_K_M 或 Q6_K 是最佳選擇。 代理任務涉及連鎖推理,質量下降在各步驟中累積。Q4 量化帶來的輕微速度提升在多步驟工作流程中不值得損失可靠性。
微調策略
無論您選擇哪個基礎模型,微調方法都是類似的:
資料準備
- 導出您的 OpenClaw 交互日誌(它最常處理的任務)
- 以 JSONL 格式的指令/回應對格式化
- 如果您的工作流程使用工具調用,包含工具調用示例
- 包含多步驟推理鏈的示例
- 目標 500-2,000 個示例
訓練配置
- LoRA rank:16(從這裡開始;如果準確率停滯,增加到 32)
- Epoch:3-4 個(監控驗證集上的過擬合)
- 學習率:2e-4(LoRA 微調的標準值)
評估
- 在保留集上測試(您的資料的 20%)
- 測量特定任務準確率(分類 F1、架構合規性、回應質量)
- 在相同測試集上與基礎模型比較,以量化改進
迭代
- 從生產使用中收集分類錯誤的示例
- 將其添加到訓練集中
- 重新微調(通常 1-2 次迭代即可達到生產質量)
使用 Ertas Studio,整個過程——上傳、配置、訓練、評估、導出 GGUF——每次迭代需要 30-90 分鐘,無需任何代碼。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
入門
- 根據您的主要使用案例從上面的推薦中選擇基礎模型
- 通過 Ollama 拉取:
ollama pull llama3.3:8b或ollama pull qwen2.5:7b - 用 OpenClaw 測試您的實際任務以建立基準
- 從工作流程中收集訓練資料(500 個以上示例)
- 在 Ertas Studio 上微調——上傳、訓練、導出 GGUF
- 部署微調模型通過 Ollama,並與基準比較
大多數團隊從 Llama 3.3 8B 開始(最安全的全能選擇),微調一次,然後評估不同的基礎模型是否更適合其特定工作負載。微調投資(幾百個訓練示例)是可轉移的——您可以使用相同的資料集重新在不同的基礎模型上微調。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

How to Power OpenClaw with Fine-Tuned Local Models (No API Costs)
OpenClaw defaults to cloud APIs that charge per token. Here's how to run it on fine-tuned local models via Ollama for better domain performance and zero marginal inference cost.

OpenClaw + Fine-Tuned Models vs. OpenClaw + GPT-4: A Practical Comparison
We compared OpenClaw running on fine-tuned local models against GPT-4o across five common agent tasks. Here's where fine-tuned models win, where they don't, and what the numbers say.

Extending OpenClaw with Custom Skills Powered by Fine-Tuned Models
The ClawHub supply chain attack compromised 800+ skills. Build your own instead — backed by fine-tuned models that are safer, more accurate, and tailored to your domain.