vs

    Hermes 4 vs Llama 3

    对比 Hermes 4(Nous Research)与 Llama 3(Meta)——同一架构,截然不同的后训练。推理能力、对齐姿态以及微调取舍全方位解析。

    Overview

    Hermes 4 与 Llama 3 共享同一架构——Hermes 4 基于 Llama 3.1 构建——但它们的后训练存在根本差异。Llama 3 Instruct 采用 Meta 标准的 RLHF 流水线,并以安全为核心进行对齐训练。Hermes 4 则采用 Nous Research 的 Atropos 强化学习框架,配合约 1000 个任务专用校验器,并明确避免重度的拒绝训练。其结果是两个共享架构却在推理能力、指令遵循姿态以及拒绝模式上存在显著差异的模型。

    对大多数团队而言,选择归结为两个问题。第一,你是否需要 Hermes 4 通过 `<think>` token 训练所添加的混合推理能力?在重推理基准(AIME、GPQA、复杂代码生成)上,Hermes 4 70B 显著优于 Llama 3 70B Instruct。第二,你是否需要模型处理 Llama 3 安全训练所拒绝的内容?Hermes 4 的中性对齐姿态专为合法用例设计——例如安全研究、红队评估、成熟的创意写作以及对敏感话题的教育性讨论,在这些场景下,Llama 3 的拒绝模式会成为障碍。

    Feature Comparison

    FeatureHermes 4Llama 3
    基础架构Llama 3.1(与 B 相同)Llama 3.1
    参数规模14B、70B、405B8B、70B、405B
    后训练方式Atropos RL + 约 1000 个任务校验器标准 SFT + RLHF + DPO
    混合 <think> 推理
    拒绝模式中性对齐(最小化拒绝)标准的安全对齐拒绝
    AIME 2025 得分显著高于 Llama 3Llama 3 标准基线
    GPQA Diamond 得分显著高于 Llama 3Llama 3 标准基线
    工具调用 / 函数调用继承 Llama 3 的工具调用成熟、文档完善
    部署兼容性与 Llama 3 相同(Ollama、vLLM 等)处处一流支持
    许可证Llama 社区许可证(继承)Llama 社区许可证

    Strengths

    Hermes 4

    • 在同等参数规模下,推理基准(AIME、GPQA、复杂代码)上的表现显著优于 Llama 3 Instruct
    • 混合 <think> 推理模式允许根据需要自适应推理深度,无需部署独立模型
    • 中性对齐的后训练避免了过度拒绝,从而不阻碍安全研究、创意工作等合法用例
    • 继承 Llama 3 架构,因此部署基础设施(llama.cpp、vLLM、Ollama)无需修改即可使用
    • Atropos RL 训练方法学文档完善、可复现,并具备能力提升的强实证依据

    Llama 3

    • 标准的安全对齐适合通用消费产品,在这类场景下,对边缘请求的拒绝是被期望的行为
    • 围绕 Llama 3 基础模型构建的微调、部署指南与社区资源生态系统极为庞大
    • 在代理与工具调用场景下行为更可预测,Hermes 4 的推理模式有时会带来干扰
    • 拥有 Meta 的直接支持,包括持续的模型改进、安全更新与生态投入
    • 提供 8B 变体作为起点——而 Hermes 4 最小变体为 14B

    Which Should You Choose?

    你的应用需要高质量的数学、代码或科学任务推理能力Hermes 4

    Hermes 4 的 Atropos RL 后训练相比基础 Llama 3 带来了显著的推理能力提升。在 AIME 2025、GPQA Diamond 以及竞赛编程基准上,Hermes 4 70B 都明显优于 Llama 3 70B Instruct。

    你正在构建安全研究工具、红队评估系统或 CTF 平台Hermes 4

    Hermes 4 的中性对齐明确针对那些 Llama 3 安全训练会造成过度拒绝的用例。安全研究、红队演练以及教育性的安全内容,往往需要一个能够正面回应而非拒绝的模型。

    你在构建通用消费产品,标准的安全对齐就已足够Llama 3

    对于消费级聊天机器人、客户支持以及通用助手,Llama 3 的标准安全对齐是合适的默认值。Hermes 4 的中性对齐则需要在产品层面追加安全控制,而 Llama 3 在模型层面就已提供。

    你需要 8B 变体以适配资源受限的部署Llama 3

    Llama 3 提供 8B 变体;Hermes 4 最小变体为 14B。对于专门面向 8B 规模(例如显存小于 12GB 的消费级 GPU)的部署,Llama 3 是两者中唯一可行的选择。

    Verdict

    Hermes 4 与 Llama 3 是同一架构、不同后训练的两款模型,选择取决于哪种行为模式更契合你的用例。Hermes 4 在重推理应用以及被 Llama 3 安全对齐阻挡的合法用例上更具优势。Llama 3 在通用消费应用上更胜一筹,并适合希望复用更庞大的社区微调与资源生态的团队。

    如今许多团队会同时部署两者——在面向消费者的界面使用 Llama 3 Instruct(其安全对齐合适),在内部重推理任务(代码分析、安全研究、内部数据分析)使用 Hermes 4,因为此时推理能力比拒绝覆盖率更重要。共享架构使这种双部署在运营上非常简单——相同的推理基础设施、相同的提示词格式约定。

    How Ertas Fits In

    Hermes 4 的 Llama 3.1 基础架构意味着它继承了整个 Llama 3 微调生态。在 Ertas Studio 中,微调 Hermes 4 与微调 Llama 3 在操作上几乎一致——硬件需求、QLoRA 配置、导出流程都相同。14B 变体可在 12-16GB 显存上微调,70B 可在 40-48GB 显存上微调。

    微调 Hermes 4 时,最有价值的模式是保留其混合 `<think>` 推理行为。在数据集中为复杂样例显式包含思考轨迹,可以让微调后的模型保留自适应推理能力,而不是退化为单一模式。Ertas Studio 原生支持此类带注释的数据集。对于同时考虑两款模型的团队,常见做法是:用 Llama 3 微调通用指令场景,用 Hermes 4 微调重推理专用场景,再通过基于任务类型的路由层同时部署两者。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.