Hermes 4 vs Llama 3
比較 Hermes 4(Nous Research)與 Llama 3(Meta)——相同架構但後訓練策略截然不同。涵蓋推理能力、對齊立場與微調取捨。
Overview
Hermes 4 與 Llama 3 共用相同架構——Hermes 4 建構於 Llama 3.1 基礎之上——但兩者的後訓練策略截然不同。Llama 3 Instruct 採用 Meta 標準的 RLHF 流程,著重於安全導向的對齊訓練。Hermes 4 則使用 Nous Research 的 Atropos 強化學習框架,搭配約 1,000 個任務專屬驗證器,並刻意避免高壓的拒答訓練。最終結果是兩個共用架構,但在推理能力、指令遵循立場與拒答模式上有顯著差異的模型。
對多數團隊而言,這個選擇歸結為兩個問題。首先,您是否需要 Hermes 4 透過 `<think>` token 訓練所提供的混合推理能力?在偏重推理的基準測試(AIME、GPQA、複雜程式碼生成)上,Hermes 4 70B 顯著優於 Llama 3 70B Instruct。其次,您是否需要模型處理 Llama 3 安全訓練會拒絕的內容?Hermes 4 的中性對齊立場是為合理使用情境而設計的,例如資安研究、紅隊評估、成熟主題的創意寫作,以及對敏感主題的教育性討論——在這些情境中 Llama 3 的拒答模式會構成阻礙。
Feature Comparison
| Feature | Hermes 4 | Llama 3 |
|---|---|---|
| 基礎架構 | Llama 3.1(與 B 相同) | Llama 3.1 |
| 參數規模 | 14B、70B、405B | 8B、70B、405B |
| 後訓練 | Atropos RL + 約 1000 個任務驗證器 | 標準 SFT + RLHF + DPO |
| 混合 <think> 推理 | ||
| 拒答模式 | 中性對齊(最少拒答) | 標準安全對齊拒答 |
| AIME 2025 分數 | 顯著高於 Llama 3 | 標準 Llama 3 基準 |
| GPQA Diamond 分數 | 顯著高於 Llama 3 | 標準 Llama 3 基準 |
| 工具使用 / 函式呼叫 | 繼承 Llama 3 工具使用能力 | 成熟且文件完備 |
| 部署相容性 | 與 Llama 3 相同(Ollama、vLLM 等) | 在各平台皆為一級支援 |
| 授權 | Llama Community License(繼承) | Llama Community License |
Strengths
Hermes 4
- 在相同參數規模下,於推理基準測試(AIME、GPQA、複雜程式碼)上的表現顯著優於 Llama 3 Instruct
- 混合 <think> 推理模式可在不另行部署模型的情況下實現適應性推理深度
- 中性對齊後訓練避免過度拒答模式,不會阻擋資安研究與創意工作等合理使用情境
- 繼承 Llama 3 架構,因此部署基礎設施(llama.cpp、vLLM、Ollama)無需修改即可運作
- Atropos RL 訓練方法論文件完備且可重現,具備強而有力的能力提升實證
Llama 3
- 標準安全對齊適合一般用途的消費者產品,這類產品通常希望在邊界情況下拒絕請求
- 建立於 Llama 3 基礎之上的龐大微調、部署指南與社群資源生態系
- 在代理與工具使用情境中行為更可預測,在這些情境中 Hermes 4 的推理模式有時會造成干擾
- Meta 提供直接支援,包含持續的模型改進、安全性更新與生態系投資
- 提供 8B 變體作為起點——Hermes 4 最小的變體為 14B
Which Should You Choose?
Hermes 4 的 Atropos RL 後訓練相較於基礎 Llama 3 帶來顯著的推理提升。在 AIME 2025、GPQA Diamond 與競賽程式設計基準測試上,Hermes 4 70B 顯著優於 Llama 3 70B Instruct。
Hermes 4 的中性對齊明確針對 Llama 3 安全訓練造成過度拒答的使用情境而設計。資安研究、紅隊作業與教育性資安內容通常需要一個會處理該內容而非拒絕的模型。
對於消費者聊天機器人、客戶服務與一般用途助理,Llama 3 的標準安全對齊是合適的預設值。Hermes 4 的中性對齊需要額外的產品層級安全控制,而 Llama 3 在模型層級就已提供。
Llama 3 提供 8B 變體;Hermes 4 最小為 14B。對於特別鎖定 8B 規模的部署(例如 VRAM 12GB 以下的消費級 GPU),Llama 3 是兩者中唯一的選項。
Verdict
Hermes 4 與 Llama 3 為相同架構但採用不同後訓練,選擇取決於哪一種行為模式符合您的使用情境。對於偏重推理的應用,以及被 Llama 3 安全對齊所阻擋的合理使用情境,Hermes 4 較為突出。對於一般用途的消費者應用,以及偏好仰賴 Llama 3 龐大社群微調與資源生態系的團隊,Llama 3 較為合適。
如今許多團隊兩者並用——在面向消費者的介面上採用 Llama 3 Instruct,因為安全對齊在此處合宜;而在內部偏重推理的任務(程式碼分析、資安研究、內部資料分析)上採用 Hermes 4,因為推理能力比拒答涵蓋率更為重要。共用的架構讓這種雙重部署在營運上相當簡單——相同的推論基礎設施、相同的提示格式慣例。
How Ertas Fits In
Hermes 4 的 Llama 3.1 基礎架構意味著它繼承了整個 Llama 3 微調生態系。在 Ertas Studio 中,微調 Hermes 4 與微調 Llama 3 在營運上完全相同——相同的硬體需求、相同的 QLoRA 配置、相同的匯出流程。14B 變體可在 12-16GB VRAM 上微調,70B 則在 40-48GB VRAM 上微調。
微調 Hermes 4 時,最有價值的模式是保留混合 `<think>` 推理行為。 對複雜範例包含明確思考軌跡的資料集,能教導微調後的模型保留適應性推理,而非塌陷至單一模式。Ertas Studio 原生支援這類標註資料集。對於同時考量兩種模型的團隊,常見模式是:以 Llama 3 微調一般指令調整使用情境,以 Hermes 4 微調偏重推理的特化任務,並在兩者之上部署根據任務類型的路由層。
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.