Hermes 4 vs Llama 3
对比 Hermes 4(Nous Research)与 Llama 3(Meta)——同一架构,截然不同的后训练。推理能力、对齐姿态以及微调取舍全方位解析。
Overview
Hermes 4 与 Llama 3 共享同一架构——Hermes 4 基于 Llama 3.1 构建——但它们的后训练存在根本差异。Llama 3 Instruct 采用 Meta 标准的 RLHF 流水线,并以安全为核心进行对齐训练。Hermes 4 则采用 Nous Research 的 Atropos 强化学习框架,配合约 1000 个任务专用校验器,并明确避免重度的拒绝训练。其结果是两个共享架构却在推理能力、指令遵循姿态以及拒绝模式上存在显著差异的模型。
对大多数团队而言,选择归结为两个问题。第一,你是否需要 Hermes 4 通过 `<think>` token 训练所添加的混合推理能力?在重推理基准(AIME、GPQA、复杂代码生成)上,Hermes 4 70B 显著优于 Llama 3 70B Instruct。第二,你是否需要模型处理 Llama 3 安全训练所拒绝的内容?Hermes 4 的中性对齐姿态专为合法用例设计——例如安全研究、红队评估、成熟的创意写作以及对敏感话题的教育性讨论,在这些场景下,Llama 3 的拒绝模式会成为障碍。
Feature Comparison
| Feature | Hermes 4 | Llama 3 |
|---|---|---|
| 基础架构 | Llama 3.1(与 B 相同) | Llama 3.1 |
| 参数规模 | 14B、70B、405B | 8B、70B、405B |
| 后训练方式 | Atropos RL + 约 1000 个任务校验器 | 标准 SFT + RLHF + DPO |
| 混合 <think> 推理 | ||
| 拒绝模式 | 中性对齐(最小化拒绝) | 标准的安全对齐拒绝 |
| AIME 2025 得分 | 显著高于 Llama 3 | Llama 3 标准基线 |
| GPQA Diamond 得分 | 显著高于 Llama 3 | Llama 3 标准基线 |
| 工具调用 / 函数调用 | 继承 Llama 3 的工具调用 | 成熟、文档完善 |
| 部署兼容性 | 与 Llama 3 相同(Ollama、vLLM 等) | 处处一流支持 |
| 许可证 | Llama 社区许可证(继承) | Llama 社区许可证 |
Strengths
Hermes 4
- 在同等参数规模下,推理基准(AIME、GPQA、复杂代码)上的表现显著优于 Llama 3 Instruct
- 混合 <think> 推理模式允许根据需要自适应推理深度,无需部署独立模型
- 中性对齐的后训练避免了过度拒绝,从而不阻碍安全研究、创意工作等合法用例
- 继承 Llama 3 架构,因此部署基础设施(llama.cpp、vLLM、Ollama)无需修改即可使用
- Atropos RL 训练方法学文档完善、可复现,并具备能力提升的强实证依据
Llama 3
- 标准的安全对齐适合通用消费产品,在这类场景下,对边缘请求的拒绝是被期望的行为
- 围绕 Llama 3 基础模型构建的微调、部署指南与社区资源生态系统极为庞大
- 在代理与工具调用场景下行为更可预测,Hermes 4 的推理模式有时会带来干扰
- 拥有 Meta 的直接支持,包括持续的模型改进、安全更新与生态投入
- 提供 8B 变体作为起点——而 Hermes 4 最小变体为 14B
Which Should You Choose?
Hermes 4 的 Atropos RL 后训练相比基础 Llama 3 带来了显著的推理能力提升。在 AIME 2025、GPQA Diamond 以及竞赛编程基准上,Hermes 4 70B 都明显优于 Llama 3 70B Instruct。
Hermes 4 的中性对齐明确针对那些 Llama 3 安全训练会造成过度拒绝的用例。安全 研究、红队演练以及教育性的安全内容,往往需要一个能够正面回应而非拒绝的模型。
对于消费级聊天机器人、客户支持以及通用助手,Llama 3 的标准安全对齐是合适的默认值。Hermes 4 的中性对齐则需要在产品层面追加安全控制,而 Llama 3 在模型层面就已提供。
Llama 3 提供 8B 变体;Hermes 4 最小变体为 14B。对于专门面向 8B 规模(例如显存小于 12GB 的消费级 GPU)的部署,Llama 3 是两者中唯一可行的选择。
Verdict
Hermes 4 与 Llama 3 是同一架构、不同后训练的两款模型,选择取决于哪种行为模式更契合你的用例。Hermes 4 在重推理应用以及被 Llama 3 安全对齐阻挡的合法用例上更具优势。Llama 3 在通用消费应用上更胜一筹,并适合希望复用更庞大的社区微调与资源生态的团队。
如今许多团队会同时部署两者——在面向消费者的界面使用 Llama 3 Instruct(其安全对齐合适),在内部重推理任务(代码分析、安全研究、内部数据分析)使用 Hermes 4,因为此时推理能力比拒绝覆盖率更重要。共享架构使这种双部署在运营上非常简单——相同的推理基础设施、相同的提示词格式约定。
How Ertas Fits In
Hermes 4 的 Llama 3.1 基础架构意味着它继承了整个 Llama 3 微调生态。在 Ertas Studio 中,微调 Hermes 4 与微调 Llama 3 在操作上几乎一致——硬件需求、QLoRA 配置、导出流程都相同。14B 变体可在 12-16GB 显存上微调,70B 可在 40-48GB 显存上微调。
微调 Hermes 4 时,最有价值的模式是保留其混合 `<think>` 推理行为。在数据集中为复杂样例显式包含思考轨迹,可以让微调后的模型保留自适应推理能力,而不是退化为单一模式。Ertas Studio 原生支持此类带注释的数据集。对于同时考虑两款模型的团队,常见做法是:用 Llama 3 微调通用指令场景,用 Hermes 4 微调重推理专用场景,再通过基于任务类型的路由层同时部署两者。
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.