Back to blog
    Hermes Agent 与 Hermes 4:有什么区别?
    hermes-agenthermes-4nous-researchagentsopen-source

    Hermes Agent 与 Hermes 4:有什么区别?

    Nous Research 现在有两件不同的产品共用 Hermes 名字——2025年发布的模型家族和2026年发布的自我改进智能体框架。这里告诉你如何区分以及在何种场景使用哪一个。

    EErtas Team·

    如果你在2026年一直关注开源AI生态,几乎肯定见过"Hermes"在不同语境下被多次提及——并且你可能注意到这些引用并不完全对得上。原因在于,Nous Research如今有两件不同的产品共用Hermes这个名字:一个模型家族和一个智能体框架。它们在概念上相关,但在运维上各自独立,混为一谈会在规划部署时带来真实的困扰。

    这是一份快速的辨析指南。我们将介绍它们各自是什么、何时该用哪一个,以及它们之间的关系。

    一句话版本

    • Hermes 4 是2025年8月发布的开放权重大模型家族——基于Llama-3.1的微调,包含14B、70B和405B三种规格,具备混合的 <think> 推理能力,并采用中性立场的后训练。
    • Hermes Agent 是2026年2月发布的开源智能体框架——围绕GEPA自我改进机制构建,让智能体从成功完成的任务中创建可复用的技能。

    当你需要一款推理能力强、且拒答训练较少的模型时(安全研究、面向成熟受众的创作、对敏感主题的教育内容),使用Hermes 4。当你希望获得自我改进的智能体行为时,使用Hermes Agent——通常会以Hermes 4或其他基础模型作为底层。

    Hermes 4:模型家族

    Hermes 4于2025年8月30日发布,是Nous Research的Hermes模型家族第四代。该家族提供三种规格——14B、70B和405B参数——均通过Nous的后训练流水线,以Meta的Llama 3.1基础模型为起点训练而来。

    Hermes 4相对于基础Llama 3 Instruct有三处显著区别:

    混合的 <think> 推理。 Hermes 4在训练时支持以显式的 <think>...</think> 标签标注的扩展思维链推理。模型会根据查询复杂度自行决定是先思考还是直接作答——简单查询快速直接响应,困难问题则展开扩展推理轨迹。这在精神上与Qwen 3+和DeepSeek V3.2+的统一思考模式相似,但通过定向的后训练而非从零的架构设计来实现。

    Atropos 强化学习后训练。 Nous使用其Atropos强化学习框架训练Hermes 4,配合约1,000个任务专属的验证器——自动评分器会在事实准确性、代码正确性、数学有效性以及其他领域特定信号上为模型输出打分。结果是相比基础Llama 3 Instruct,推理能力有可量度的提升:Hermes 4 70B在AIME、GPQA Diamond以及复杂代码生成上显著超越Llama 3 70B Instruct。

    中性对齐。 Nous有意避免了重手的RLHF拒答训练。Hermes 4会按指令执行,没有主流发布版中常见的层层拒答模式。这对一些合法用例至关重要——这些场景需要模型与其他模型拒绝响应的内容互动,比如安全研究与CTF挑战、含成熟主题的虚构创作、历史内容分析以及面向敏感主题的教育性讨论。

    由于Hermes 4基于Llama 3.1构建,它继承了整个Llama部署生态。它能在llama.cpp、vLLM、Ollama、LM Studio以及TensorRT-LLM中运行,无需特别配置。14B版本可在消费级GPU上微调(QLoRA下12-16GB显存);70B可放进单张48GB GPU;405B需要多GPU服务器基础设施。

    权重在Hugging Face上可获取,路径分别为 NousResearch/Hermes-4-405BNousResearch/Hermes-4-70BNousResearch/Hermes-4-14B。许可证继承自Llama 3.1(Llama社区许可证),允许商业使用,但带有用户量上限和归属要求。

    Hermes Agent:框架

    Hermes Agent于2026年2月发布,是完全不同的另一件事——一个开源智能体框架,并非模型。该框架的标志性能力是其GEPA(基于经验的程序化习得,Generalized Experience-based Procedural Acquisition)自我改进机制:智能体从成功完成的任务中创建可复用的"技能",在使用中持续打磨,并积累一座专属的技能库,使能力随时间复利提升。

    模式简单却强大。当智能体成功完成一项复杂任务时,GEPA会把那一解法写入为可复用技能——通常是可读的代码或结构化提示词。下次遇到类似任务时,智能体会调用既有技能,而不是再次从头推导解法。Nous的实证结果显示:在积累20多个自生成技能后,Hermes智能体在重复任务上的速度大约提升40%,提速完全来自技能复用。

    这与多数智能体框架"每个任务都从零开始"的做法有本质不同。在Hermes Agent中,智能体的累积经验成为一等公民产出物:技能被持久化、被打磨、被复用。技能本身是可检视的——可读的代码或提示词——而非不透明的学习权重,这让系统在调试与编辑层面具备了基于微调方法所不具备的能力。

    到2026年4月,Hermes Agent已突破10.3万GitHub星标,是增长最快的开源智能体框架之一。框架采用MIT许可,托管基础设施起步价为每月5欧元。

    关键一点:Hermes Agent适用于任何LLM,而不仅仅是Hermes 4。框架通过标准的OpenAI兼容接口调用模型,这意味着你可以将Hermes Agent与Llama 3、Qwen 3.6、DeepSeek V4、GPT-OSS或任何通过Ollama、vLLM、托管API提供服务的模型搭配使用。Hermes 4模型家族尤其契合(混合的 <think> 推理与技能创建天然搭配),但并非必需。

    何时使用哪一个

    这两件产品服务于不同的需求,彼此不可互换。

    在以下情况使用Hermes 4(模型):

    • 你需要强大的推理能力,而主流模型的安全对齐正在阻碍合法用例
    • 你正在构建安全研究工具、CTF训练环境或红队评估系统
    • 你需要兼容Llama 3.1、且推理能力远超基础Llama 3 Instruct的模型
    • 你正为专门的推理工作负载做微调,并希望从一个强起点开始
    • 你的部署基础设施围绕Llama 3生态搭建

    在以下情况使用Hermes Agent(框架):

    • 你正在构建生产级智能体系统,希望让自我改进随着时间复利
    • 你需要可检视的技能库,而非不透明的学习权重
    • 你希望智能体在重复任务上提速,且不需要持续的微调周期
    • 你已在使用LangGraph、CrewAI或类似框架,但想加入"积累技能"的行为
    • 你正在交付智能体产品,用户会反复执行相似任务(研究、编程、分析)

    在以下情况两者一起使用:

    • 你想搭建可能最强的自我改进智能体堆栈——Hermes 4的混合 <think> 推理与Hermes Agent的技能创建天然契合,组合起来能产出尤其高质量的技能库
    • 你处于受监管环境,底层模型的中性对齐与智能体框架的可检视技能能共同满足合规关切
    • 你想用微调闭环:把GEPA技能导出作为训练数据,并在Ertas Studio中以这些自生成的程序化知识为目标对Hermes 4进行微调

    它们在概念上的关系

    尽管运维上分得很干净,产品策略上的连接是真实存在的。Nous更宏大的论点是构建可引导、能力优先的AI系统——既能可靠地遵循指令的模型,也能让能力随使用而复利的框架,而不是单纯依赖底层模型变得更好。

    Hermes 4(模型)在模型侧体现这一论点:在不强加额外对齐约束的前提下提升推理能力。Hermes Agent(框架)在系统侧体现这一论点:智能体通过累积经验改进,而不是只能依靠模型重训。

    两者搭配使用,会产出一个具有两个互补改进闭环的堆栈:模型可以在领域数据上微调(提升基础能力),框架则在生产运行中积累技能(提升应用能力)。技能本身又可以被导出为下一轮微调周期的训练数据,形成一种任一组件单独都做不到的复利改进模式。

    Ertas 如何契合其中

    对于运行其中一项或两者皆用的团队,Ertas Studio支持相关的微调工作流:

    • 直接微调Hermes 4。 14B版本适配消费级GPU(12-16GB显存),70B放进48GB GPU。Ertas Studio的QLoRA流水线原生处理Llama 3.1基础架构,包括在微调输出中保持混合的 <think> 推理行为。

    • 从Hermes 4蒸馏。 把Hermes 4 405B用作教师模型生成合成的推理轨迹数据,再以这些数据微调更小的基础模型(Qwen 32B、Llama 70B或DeepSeek-R1蒸馏版本)。这能在单GPU部署成本下产出领域专精模型,同时继承Hermes 4的推理模式。

    • 从Hermes Agent进行技能库蒸馏。 把生产环境中Hermes Agent运行积累的GEPA技能库导出为训练数据,并以你底层基础模型的自生成程序化知识为目标进行微调。微调后的模型在最常见的模式上表现更佳,从而减少常见任务对技能库查询的依赖,同时保留对新颖任务基于技能的处理。

    如果你正在评估其中任一产品做生产部署,正确的起点是先厘清你要解决什么问题。当主流模型的对齐模式成为障碍时,Hermes 4模型是正确答案。当你想从智能体经验中获得复利能力时,Hermes Agent框架是正确答案。当你在大规模构建自我改进的智能体产品,且模型侧与系统侧的改进需要协同工作时,两者同时使用就是正确答案。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading