Hermes 4
拒答模式: 极少(设计如此)
对于受主流安全训练阻碍的合法用例而言,Nous Research 出品的 Hermes 4 是最明确的选择。该模型显式采用「中立对齐」——Nous 刻意避免了过度严苛的 RLHF 拒答训练,得到一个能遵循指令、又不带有当代其他发布版常见过度拒答模式的微调版本。Hermes 4 基于 Llama 3.1 基础模型,使用 Atropos RL 后训练,并配合约 1,000 个任务专属验证器,因此在对齐立场之外还具备强大的推理能力。在安全研究、红队评估、面向成年人的创意写作以及涉及敏感话题的教育内容上,Hermes 4 是首选。
Strengths
- 显式中立对齐——没有过度严苛的拒答训练
- Atropos RL 后训练带来强大的推理能力
- 支持 <think> 混合推理模式,可自适应推理深度
- 继承 Llama 3.1 的部署生态
Trade-offs
- 继承 Llama 社区许可证条款(非 Apache)
- 最小变体为 14B(无 8B 选项)
- 面向消费者的应用仍需额外的产品级安全控制