Fine-Tune Hermes 4 with Ertas

Nous Research 於 2025 年 8 月發布的模型家族——基於 Llama-3.1 的微調版，提供 14B、70B 與 405B 三種規格，採用明確思考 token 的混合推理、中性對齊的後訓練，並使用 Atropos 強化學習系統搭配約 1,000 個任務專屬驗證器，在約 600 億 token 上訓練。

14B70B405BNous Research

Overview

Hermes 4 由 Nous Research 於 2025 年 8 月 30 日發布，是 Hermes 模型家族的第四代，也是讓 Nous 確立為高能力開源權重微調主要來源的版本。家族提供三種規格——14B、70B 與 405B 參數——全部衍生自 Meta 的 Llama 3.1 基礎模型。儘管是微調而非從頭預訓練，Hermes 4 模型在推理基準上提供與許多原生旗艦發布相當或勝過的能力。

Hermes 4 的核心創新是其使用明確 `<think>` token 的混合推理架構。不同於總是產生思維鏈的純推理模型，或直接回應的純指令模型，Hermes 4 在單一檢查點內支援兩種模式。模型可在推理有益時產生包覆於 `<think>...</think>` 標籤內的結構化思考軌跡，或對不需審慎思考的查詢直接跳到答案。這在精神上類似 Qwen 3+ 與 DeepSeek V3.2+ 的統一思考模式，但透過針對性的後訓練而非從頭的架構設計達成。

Hermes 4 被定位為「中性對齊」——Nous Research 明確避免了重手的 RLHF 拒絕訓練，產生一個無同時代其他發布常見的過度拒絕模式的模型。這種定位使 Hermes 4 對於與主流模型拒絕模式衝突的合法使用情境特別有價值，包括安全研究、需要成熟內容的創意寫作，以及紅隊評估工作。

訓練方法也值得注意。Nous 使用了他們的 Atropos 強化學習框架，搭配約 1,000 個任務專屬驗證器——根據事實準確度、程式碼正確性、數學有效性與其他領域專屬訊號為模型輸出評分的自動化評分器。這產生一個推理品質大幅改進的微調，且沒有傳統 RLHF 的對齊副作用。

Key Features

透過 `<think>` token 的混合推理是 Hermes 4 最具特色的能力。模型知道何時推理——通常為數學、程式碼、複雜事實問題與多步規劃啟用思考模式，而對對話查詢、簡單指令與回憶任務則直接回應。開發者可透過提示（例如要求模型先思考）或透過微調在特定領域偏向直接或推理回應來控制此行為。

中性對齊的後訓練意味著 Hermes 4 遵循指令，沒有主流發布常見的層層拒絕模式。這對於需要模型處理其他模型拒絕的內容的合法使用情境很重要——包括紅隊安全評估、安全研究與 CTF 挑戰、含成熟主題的虛構作品、歷史內容分析，以及敏感主題的教育討論。Nous 已明確表示模型是為能力與可導引性而設計，而非反射式的拒絕。

搭配 1,000+ 驗證器的 Atropos RL 框架，相對於基礎 Llama 3.1 在推理基準上產生可量測的改進。在 AIME、GPQA 與複雜程式碼生成任務上，Hermes 4 70B 大幅勝過 Llama 3.1 70B Instruct，而 Hermes 4 405B 在重推理評估上大幅縮短了與前沿專有模型的差距。

由於 Hermes 4 建立於 Llama 3.1 之上，它繼承了 Llama 的工具生態系——包括 llama.cpp、vLLM 與 TensorRT-LLM 中的高效推論、廣泛的量化支援、成熟的微調食譜，以及與廣大基於 Llama 的部署基礎設施生態系的相容性。

Fine-Tuning with Ertas

Hermes 4 的 Llama 3.1 基礎架構意味著它繼承了 Llama 3.1 行之有年的微調工作流程。在 Ertas Studio 中，14B 變體以 QLoRA 微調需 12-16GB VRAM，70B 變體需 40-48GB VRAM，405B 變體則需多 GPU 伺服器配置（8x A100 80GB 或更大）。

微調 Hermes 4 時，最有價值的模式是在訓練資料中保留混合推理行為。包含複雜範例的明確 `<think>...</think>` 軌跡與簡單範例的直接回應的資料集，會教導微調後的模型保留自適應推理能力，而不是塌陷至單一模式。Ertas Studio 原生支援這些標註資料集，也可使用獨立的推理模型從你既有的指令資料生成合成思考軌跡。

訓練後，Ertas Studio 匯出為 GGUF 格式並完整保留 Hermes 4 提示模板，包括 `<think>` token 標記。量化後的模型可直接透過 Ollama、llama.cpp 或 LM Studio 部署。70B 變體在 Q4_K_M 下產生約 40GB 的檔案，可部署於 48GB GPU，在自架套件中提供高品質推理能力，無需大型模型的多 GPU 佔用。

Use Cases

當你需要一個遵循指令而沒有重度拒絕模式的模型時，Hermes 4 是首選。這包括安全研究與 CTF 訓練環境、紅隊評估工具、支援成熟內容的創意寫作平台、涉及敏感主題的歷史與教育內容，以及過度拒絕會降低使用者體驗的應用。混合推理使其非常適合這些使用情境，因為它們經常涉及多步思考但很少受益於強制的推理模式延遲。

至於通用推理工作負載，Hermes 4 70B 是 70B 參數規模上最強的開源權重選項之一。它非常適合程式碼審查、除錯協助、數學問題求解與結構化分析任務。混合 `<think>` 模式允許簡單查詢的快速直接回應與較困難查詢的完整推理深度——對於均勻推理模式延遲會造成困擾的互動式應用很有用。

405B 變體鎖定高能力研究與綜整應用。它強勁地結合推理深度、指令遵循與可導引性，使其適用於進階程式碼生成、科學寫作、複雜內容審查等任務，並可作為微調較小學生的教師模型。Hermes 4 405B 也經常被部署作為進一步專業化的基礎——其已強勁的推理能力使領域微調的樣本效率更高。

Hardware Requirements

Hermes 4 14B 模型在 Q4_K_M 量化下約需 8.5GB VRAM，可在 RTX 3060 12GB 以上的消費級 GPU 上運行。在 Q8_0 下預期約 15GB。70B 模型在 Q4_K_M 下約需 40GB，可裝在單張 48GB GPU（RTX 6000 Ada、A6000）上，或分散於兩張 24GB GPU。

405B 模型在 Q4_K_M 下約需 230GB，需要多 GPU 伺服器配置（4x A100 80GB、8x A6000 48GB）或配備 512GB+ RAM 的大記憶體 CPU 推論系統。對於想要 Hermes 4 能力但不想要 405B 硬體佔用的大多數團隊，70B 變體提供最佳的品質-資源比。

在 Ertas Studio 中進行微調：14B QLoRA 需 12-16GB VRAM，70B QLoRA 需 40-48GB VRAM，405B QLoRA 需多 GPU 伺服器配置。請注意，推理模式訓練每個範例產生的 token 量大幅多於標準指令微調，因此在重推理資料集上微調時，請為序列長度與梯度累積保留額外的 VRAM 餘裕。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

LM Studio

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →