Back to blog
    Hermes Agent 與 Hermes 4:差別在哪裡?
    hermes-agenthermes-4nous-researchagentsopen-source

    Hermes Agent 與 Hermes 4:差別在哪裡?

    Nous Research 旗下兩個截然不同的東西如今共用 Hermes 之名——一個是 2025 年釋出的模型系列、另一個則是 2026 年釋出的自我改進代理框架。本文說明如何區分兩者,以及分別何時該用哪一個。

    EErtas Team·

    如果你有在追蹤 2026 年的開源 AI 生態,你幾乎一定看過「Hermes」在不同情境下被多次提起——而且你可能注意到這些提及彼此並不完全對得上。原因是:Nous Research 旗下現在有兩件不同的東西共用 Hermes 之名:一個是模型系列、一個是代理框架。兩者在概念上相關、但在營運上各自獨立,混為一談會在規劃部署時造成實際的混淆。

    本文是一份快速的歧義消解指南。我們會說明兩者各是什麼、何時該用哪一個,以及它們之間的關聯。

    一句話摘要

    • Hermes 4 是於 2025 年 8 月釋出的開放權重 LLM 系列——基於 Llama-3.1 微調而成的 14B、70B 與 405B 三種尺寸,採用混合式 <think> 推理與中性對齊的後訓練。
    • Hermes Agent 是於 2026 年 2 月釋出的開源代理框架——圍繞 GEPA 自我改進機制建構,代理會從成功完成的任務中創造可重用的技能。

    當你需要強大推理能力、且最少拒絕訓練的模型時(資安研究、面向成熟受眾的創作、敏感主題的教育素材),就用 Hermes 4。當你想要具備自我改進行為的代理時——通常底下會搭配 Hermes 4 或其他基底模型——就用 Hermes Agent。

    Hermes 4:模型系列

    Hermes 4 於 2025 年 8 月 30 日釋出,是 Nous Research 推出的第四代 Hermes 模型系列。該系列推出三種尺寸——14B、70B 與 405B 參數——皆由 Meta 的 Llama 3.1 基底模型,透過 Nous 的後訓練流程衍生而來。

    Hermes 4 與基底版 Llama 3 Instruct 的三大差異:

    混合式 <think> 推理。 Hermes 4 經過訓練,可支援以明確 <think>...</think> 標記標示的延伸思考鏈推理。模型會根據查詢複雜度,自行決定要思考或直接回應——簡單查詢採用快速直接回應、困難問題則產出延伸推理痕跡。這在精神上類似 Qwen 3 之後與 DeepSeek V3.2 之後的統一思考模式,但是透過鎖定式的後訓練達成,而非從頭重新設計架構。

    Atropos RL 後訓練。 Nous 使用其 Atropos 強化學習框架訓練 Hermes 4,搭配約 1,000 個任務專用驗證器——這些是自動評分器,會就模型輸出的事實準確度、程式碼正確性、數學有效性,以及其他領域專用訊號進行評分。結果是推理能力比基底 Llama 3 Instruct 在可量測層面更佳:Hermes 4 70B 在 AIME、GPQA Diamond,以及複雜程式碼產生上明顯優於 Llama 3 70B Instruct。

    中性對齊。 Nous 刻意避免重手的 RLHF 拒絕訓練。Hermes 4 會遵循指示,而沒有主流釋出常見的層層拒絕模式。這對需要模型參與其他模型會拒絕的內容的合理使用情境很重要——資安研究與 CTF 挑戰、含成熟主題的虛構創作、歷史內容分析,以及敏感主題的教育性討論。

    由於 Hermes 4 建構於 Llama 3.1 之上,它沿用了整套 Llama 部署生態。它可在 llama.cpp、vLLM、Ollama、LM Studio 與 TensorRT-LLM 中運行,無須特殊設定。14B 變體可在消費級 GPU 上微調(搭配 QLoRA 約需 12-16GB VRAM);70B 可裝進單張 48GB GPU;405B 則需要多 GPU 伺服器基礎設施。

    權重可在 Hugging Face 取得:NousResearch/Hermes-4-405BNousResearch/Hermes-4-70BNousResearch/Hermes-4-14B。授權沿用自 Llama 3.1(Llama 社群授權),允許商用,但有使用上限與歸屬要求。

    Hermes Agent:框架

    Hermes Agent 於 2026 年 2 月釋出,是完全不同的東西——一個開源代理框架,不是模型。該框架的標誌性能力是其 GEPA(Generalized Experience-based Procedural Acquisition,基於泛化經驗的程序性習得)自我改進機制:代理從成功完成的任務中創造可重用的「技能」,透過使用持續精煉,並隨時間累積出個人技能庫,能力產生複利效應。

    模式簡單但威力強大。當代理成功完成一項複雜任務後,GEPA 會把該解法寫成可重用的技能——通常是可讀的程式碼或結構化提示。下一次出現類似任務時,代理會直接呼叫既有技能,而非從頭重新推導解法。Nous 的實證結果顯示,Hermes 代理在累積 20 個以上自產技能後,於重複任務上速度約提升 40%,加速完全來自技能重用。

    這與多數代理框架有實質差異——在多數框架中,每項任務都從零開始。在 Hermes Agent 中,代理累積的經驗成為一級成品:技能會被持久化、精煉、重用。技能本身是可被檢視的——可讀的程式碼或提示——而不是不透明的學習權重,這讓系統可被除錯與編輯,是基於微調的方法所做不到的。

    到了 2026 年 4 月,Hermes Agent 已突破 103K GitHub 星,是成長最快的開源代理框架之一。框架採 MIT 授權,自架方案可從每月 €5 的代管基礎設施起步。

    關鍵地,Hermes Agent 可搭配任何 LLM 使用,不只 Hermes 4。框架透過標準的 OpenAI 相容端點呼叫模型,意即你可以將 Hermes Agent 與 Llama 3、Qwen 3.6、DeepSeek V4、GPT-OSS,或任何透過 Ollama、vLLM 或代管 API 提供的模型搭配使用。Hermes 4 模型系列特別契合(混合式 <think> 推理與技能創造非常相配),但並非必要條件。

    何時該用哪一個

    兩個產品服務不同需求,並非彼此的替代品。

    何時使用 Hermes 4(模型):

    • 你需要強大的推理能力,但主流模型的安全對齊正阻擋合理使用情境
    • 你正在打造資安研究工具、CTF 訓練環境,或紅隊評估系統
    • 你需要與 Llama 3.1 相容、且推理能力比基底 Llama 3 Instruct 大幅提升的模型
    • 你正在針對專門化推理工作負載做微調,並希望有強健的起點
    • 你的部署基礎設施圍繞 Llama 3 生態建構

    何時使用 Hermes Agent(框架):

    • 你正在打造生產級代理化系統,且希望自我改進能隨時間累積能力
    • 你需要可被檢視的技能庫,而非不透明的學習權重
    • 你希望代理在重複任務上變快,而不需要持續的微調循環
    • 你已經在使用 LangGraph、CrewAI 或類似框架,但想加入「累積技能」的行為
    • 你出貨的代理產品中,使用者會反覆執行類似任務(研究、編碼、分析)

    何時兩者搭配使用:

    • 你想要打造最強的自我改進代理技術棧——Hermes 4 的混合式 <think> 推理與 Hermes Agent 的技能創造自然契合,組合在一起會產出特別高品質的技能庫
    • 你身處受監管環境,底層模型的中性對齊與代理框架的可檢視技能,能共同回應合規顧慮
    • 你想形成微調的閉環:把 GEPA 技能匯出為訓練資料,並在 Ertas Studio 中以模型自產的程序性知識微調 Hermes 4

    它們在概念上如何關聯

    雖然兩者在營運上劃分清楚,但產品策略上的關聯確實存在。Nous 更宏觀的論點是圍繞「可被引導、能力為先」的 AI 系統——模型可靠地遵循指示,而框架透過使用累積能力,而非僅依賴底層模型不斷變強。

    Hermes 4(模型)在模型側體現了這一點:更強的推理能力,但不額外加上對齊上的限制。Hermes Agent(框架)在系統側體現了這一點:代理透過累積經驗變強,而不只透過模型重訓練。

    兩者搭配使用,會產出具有兩個互補改進迴路的技術棧:模型可在領域資料上微調(提升基礎能力),代理框架則自生產執行中累積技能(提升應用能力)。技能本身可作為下一次微調循環的訓練資料匯出,形成複利式改進模式——這是任一單獨組件都做不到的。

    Ertas 在其中的角色

    對於使用其中之一或兩者的團隊,Ertas Studio 支援相關的微調工作流程:

    • 直接微調 Hermes 4。 14B 變體可在消費級 GPU 上裝進(12-16GB VRAM)、70B 可裝進 48GB GPU。Ertas Studio 的 QLoRA 流程原生處理 Llama 3.1 基底架構,包含在微調輸出中保留混合式 <think> 推理行為。

    • 由 Hermes 4 蒸餾。 將 Hermes 4 405B 用作教師,產生合成推理痕跡資料,再以該資料微調較小的基底模型(Qwen 32B、Llama 70B,或 DeepSeek-R1 蒸餾變體)。這會以單 GPU 部署成本產出領域專門化模型,同時繼承 Hermes 4 的推理模式。

    • 由 Hermes Agent 蒸餾技能庫。 從生產 Hermes Agent 執行中匯出 GEPA 技能庫作為訓練資料,再以模型自產的程序性知識微調你的底層基底模型。微調後的模型在它最常見過的模式上表現會更佳,減少對常見任務做技能庫查詢的需要,同時對新任務保留以技能為基礎的處理能力。

    如果你正在評估其中任一產品作為生產部署,正確的起點是釐清你要解決的是哪個問題。當主流模型的對齊模式成為阻礙時,Hermes 4(模型)是正確答案。當你想要從代理經驗中獲得複利能力時,Hermes Agent(框架)是正確答案。當你正在規模化打造自我改進的代理產品、且模型側與系統側的改進需要協同運作時,兩者並用就是正確答案。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading