Fine-Tune Hermes 4 with Ertas

    Nous Research 於 2025 年 8 月發布的模型家族——基於 Llama-3.1 的微調版,提供 14B、70B 與 405B 三種規格,採用明確思考 token 的混合推理、中性對齊的後訓練,並使用 Atropos 強化學習系統搭配約 1,000 個任務專屬驗證器,在約 600 億 token 上訓練。

    14B70B405BNous Research

    Overview

    Hermes 4 由 Nous Research 於 2025 年 8 月 30 日發布,是 Hermes 模型家族的第四代,也是讓 Nous 確立為高能力開源權重微調主要來源的版本。家族提供三種規格——14B、70B 與 405B 參數——全部衍生自 Meta 的 Llama 3.1 基礎模型。儘管是微調而非從頭預訓練,Hermes 4 模型在推理基準上提供與許多原生旗艦發布相當或勝過的能力。

    Hermes 4 的核心創新是其使用明確 `<think>` token 的混合推理架構。不同於總是產生思維鏈的純推理模型,或直接回應的純指令模型,Hermes 4 在單一檢查點內支援兩種模式。模型可在推理有益時產生包覆於 `<think>...</think>` 標籤內的結構化思考軌跡,或對不需審慎思考的查詢直接跳到答案。這在精神上類似 Qwen 3+ 與 DeepSeek V3.2+ 的統一思考模式,但透過針對性的後訓練而非從頭的架構設計達成。

    Hermes 4 被定位為「中性對齊」——Nous Research 明確避免了重手的 RLHF 拒絕訓練,產生一個無同時代其他發布常見的過度拒絕模式的模型。這種定位使 Hermes 4 對於與主流模型拒絕模式衝突的合法使用情境特別有價值,包括安全研究、需要成熟內容的創意寫作,以及紅隊評估工作。

    訓練方法也值得注意。Nous 使用了他們的 Atropos 強化學習框架,搭配約 1,000 個任務專屬驗證器——根據事實準確度、程式碼正確性、數學有效性與其他領域專屬訊號為模型輸出評分的自動化評分器。這產生一個推理品質大幅改進的微調,且沒有傳統 RLHF 的對齊副作用。

    Key Features

    透過 `<think>` token 的混合推理是 Hermes 4 最具特色的能力。模型知道何時推理——通常為數學、程式碼、複雜事實問題與多步規劃啟用思考模式,而對對話查詢、簡單指令與回憶任務則直接回應。開發者可透過提示(例如要求模型先思考)或透過微調在特定領域偏向直接或推理回應來控制此行為。

    中性對齊的後訓練意味著 Hermes 4 遵循指令,沒有主流發布常見的層層拒絕模式。這對於需要模型處理其他模型拒絕的內容的合法使用情境很重要——包括紅隊安全評估、安全研究與 CTF 挑戰、含成熟主題的虛構作品、歷史內容分析,以及敏感主題的教育討論。Nous 已明確表示模型是為能力與可導引性而設計,而非反射式的拒絕。

    搭配 1,000+ 驗證器的 Atropos RL 框架,相對於基礎 Llama 3.1 在推理基準上產生可量測的改進。在 AIME、GPQA 與複雜程式碼生成任務上,Hermes 4 70B 大幅勝過 Llama 3.1 70B Instruct,而 Hermes 4 405B 在重推理評估上大幅縮短了與前沿專有模型的差距。

    由於 Hermes 4 建立於 Llama 3.1 之上,它繼承了 Llama 的工具生態系——包括 llama.cpp、vLLM 與 TensorRT-LLM 中的高效推論、廣泛的量化支援、成熟的微調食譜,以及與廣大基於 Llama 的部署基礎設施生態系的相容性。

    Fine-Tuning with Ertas

    Hermes 4 的 Llama 3.1 基礎架構意味著它繼承了 Llama 3.1 行之有年的微調工作流程。在 Ertas Studio 中,14B 變體以 QLoRA 微調需 12-16GB VRAM,70B 變體需 40-48GB VRAM,405B 變體則需多 GPU 伺服器配置(8x A100 80GB 或更大)。

    微調 Hermes 4 時,最有價值的模式是在訓練資料中保留混合推理行為。包含複雜範例的明確 `<think>...</think>` 軌跡與簡單範例的直接回應的資料集,會教導微調後的模型保留自適應推理能力,而不是塌陷至單一模式。Ertas Studio 原生支援這些標註資料集,也可使用獨立的推理模型從你既有的指令資料生成合成思考軌跡。

    訓練後,Ertas Studio 匯出為 GGUF 格式並完整保留 Hermes 4 提示模板,包括 `<think>` token 標記。量化後的模型可直接透過 Ollama、llama.cpp 或 LM Studio 部署。70B 變體在 Q4_K_M 下產生約 40GB 的檔案,可部署於 48GB GPU,在自架套件中提供高品質推理能力,無需大型模型的多 GPU 佔用。

    Use Cases

    當你需要一個遵循指令而沒有重度拒絕模式的模型時,Hermes 4 是首選。這包括安全研究與 CTF 訓練環境、紅隊評估工具、支援成熟內容的創意寫作平台、涉及敏感主題的歷史與教育內容,以及過度拒絕會降低使用者體驗的應用。混合推理使其非常適合這些使用情境,因為它們經常涉及多步思考但很少受益於強制的推理模式延遲。

    至於通用推理工作負載,Hermes 4 70B 是 70B 參數規模上最強的開源權重選項之一。它非常適合程式碼審查、除錯協助、數學問題求解與結構化分析任務。混合 `<think>` 模式允許簡單查詢的快速直接回應與較困難查詢的完整推理深度——對於均勻推理模式延遲會造成困擾的互動式應用很有用。

    405B 變體鎖定高能力研究與綜整應用。它強勁地結合推理深度、指令遵循與可導引性,使其適用於進階程式碼生成、科學寫作、複雜內容審查等任務,並可作為微調較小學生的教師模型。Hermes 4 405B 也經常被部署作為進一步專業化的基礎——其已強勁的推理能力使領域微調的樣本效率更高。

    Hardware Requirements

    Hermes 4 14B 模型在 Q4_K_M 量化下約需 8.5GB VRAM,可在 RTX 3060 12GB 以上的消費級 GPU 上運行。在 Q8_0 下預期約 15GB。70B 模型在 Q4_K_M 下約需 40GB,可裝在單張 48GB GPU(RTX 6000 Ada、A6000)上,或分散於兩張 24GB GPU。

    405B 模型在 Q4_K_M 下約需 230GB,需要多 GPU 伺服器配置(4x A100 80GB、8x A6000 48GB)或配備 512GB+ RAM 的大記憶體 CPU 推論系統。對於想要 Hermes 4 能力但不想要 405B 硬體佔用的大多數團隊,70B 變體提供最佳的品質-資源比。

    在 Ertas Studio 中進行微調:14B QLoRA 需 12-16GB VRAM,70B QLoRA 需 40-48GB VRAM,405B QLoRA 需多 GPU 伺服器配置。請注意,推理模式訓練每個範例產生的 token 量大幅多於標準指令微調,因此在重推理資料集上微調時,請為序列長度與梯度累積保留額外的 VRAM 餘裕。

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.