Fine-Tune Hermes 4 with Ertas
Nous Research 2025 年 8 月模型家族——基于 Llama-3.1 的微调,规模为 14B、70B 和 405B,通过显式思考 token 实现混合推理,采用中立对齐的后训练,使用 Atropos 强化学习系统在约 600 亿 token 上训练,含约 1000 个任务专项验证器。
Overview
Hermes 4 由 Nous Research 于 2025 年 8 月 30 日发布,是 Hermes 模型家族的第四代,也是确立 Nous 作为有能力的开源权重微调主要来源的版本。该家族提供三种尺寸——14B、70B 和 405B 参数——全部源自 Meta 的 Llama 3.1 基础模型。尽管是微调而非从头预训练,Hermes 4 模型在推理基准上的能力可与许多原生旗舰发布相媲美甚至超越。
Hermes 4 的关键创新是其使用显式 `<think>` token 的混合推理架构。与始终生成思维链的纯推理模型或直接响应的纯指令模型不同,Hermes 4 在单个检查点中支持两种模式。模型可以在推理有益时生成包装在 `<think>...</think>` 标签中的结构化思考轨迹,或对不需要深思的查询直接跳到答案。这在精神上类似于 Qwen 3+ 和 DeepSeek V3.2+ 中的统一思考模式,但通过有针对性的后训练而非从零开始的架构设计实现。
Hermes 4 被定位为“中立对齐”——Nous Research 明确避免了重手的 RLHF 拒绝训练,生成的模型遵循指令而没有其他当代发布中常见的过度拒绝模式。这一定位使 Hermes 4 对那些与主流模型拒绝模式相冲突的合法用例特别有价值,包括安全研究、需要成熟内容的创意写作以及红队评估工作。
训练方法也值得注意。Nous 使用其 Atropos 强化学习框架,配合约 1000 个任务专项验证器——根据事实准确性、代码正确性、数学有效性和其他领域特定信号对模型输出进行评分的自动评分器。这生成了一个推理质量大幅改进的微调,没有传统 RLHF 的对齐人为现象。
Key Features
通过 `<think>` token 实现的混合推理是 Hermes 4 最具特色的能力。该模型知道何时进行推理——通常对数学、代码、复杂事实问题和多步规划启用思考模式,而对会话查询、简单指令和回忆任务直接响应。开发者可以通过提示(例如要求模型先思考)或通过微调来偏向特定领域的直接或推理响应来控制此行为。
中立对齐的后训练意味着 Hermes 4 遵循指令,没有主流发布中常见的分层拒绝模式。这对要求模型处理其他模型拒绝的内容的合法用例非常重要——包括红队安全评估、安全研究和 CTF 挑战、具有成熟主题的小说、历史内容分析和敏感话题的教育讨论。Nous 已明确表示该模型旨在实现能力和可控性,而非反射性拒绝。
配合 1000+ 验证器的 Atropos RL 框架在推理基准上比基础 Llama 3.1 带来了可衡量的改进。在 AIME、GPQA 和复杂代码生成任务上,Hermes 4 70B 大幅超越 Llama 3.1 70B Instruct,Hermes 4 405B 在推理密集型评估上与前沿专有模型的差距大幅缩小。
由于 Hermes 4 构建在 Llama 3.1 之上,它继承了 Llama 的工具生态系统——包括在 llama.cpp、vLLM 和 TensorRT-LLM 中的高效推理、广泛的量化支持、成熟的微调配方,以及与基于 Llama 的部署基础设施的广泛生态系统的兼容性。
Fine-Tuning with Ertas
Hermes 4 的 Llama 3.1 基础架构意味着它继承了 Llama 3.1 完善的微调工作流。在 Ertas Studio 中,14B 变体在 12-16GB VRAM 上使用 QLoRA 微调,70B 变体在 40-48GB VRAM 上微调,405B 变体在多 GPU 服务器配置上微调(8x A100 80GB 或更大)。
对于微调 Hermes 4,最有价值的模式是在训练数据中保留混合推理行为。包含复杂示例的显式 `<think>...</think>` 轨迹和简单示例的直接响应的数据集,教导微调模型保留自适应推理能力,而不是塌缩到一种模式。Ertas Studio 原生支持这些注释数据集,并且还可以使用单独的推理模型从您现有的指令数据生成合成思考轨迹。
训练完成后,Ertas Studio 导出为 GGUF 格式,完整保留 Hermes 4 提示模板,包括 `<think>` token 标记。量化模型直接通过 Ollama、llama.cpp 或 LM Studio 部署。70B 变体在 Q4_K_M 下生成约 40GB 的文件,可在 48GB GPU 上部署,以自托管的方式提供高质量的推理能力,无需大型模型的多 GPU 占用。
Use Cases
当您需要一个遵循指令而没有重度拒绝模式的模型时,Hermes 4 是首选。这包括安全研究和 CTF 训练环境、红队评估工具、支持成熟内容的创意写作平台、涉及敏感话题的历史和教育内容,以及过度拒绝会降低用户体验的应用。混合推理使其非常适合这些用例,因为它们通常涉及多步思考但很少受益于强制推理模式延迟。
对于一般推理工作负载,Hermes 4 70B 是 70B 参数规模上最强的开源权重选择之一。它非常适合代码审查、调试辅助、数学问题解决和结构化分析任务。混合 `<think>` 模式允许对简单查询快速直接响应,对较难的查询完整推理深度——在统一推理模式延迟会造成中断的交互式应用中很有用。
405B 变体面向高能力研究和综合应用。它在推理深度、指令跟随和可控性方面的强大组合使其对高级代码生成、科学写作、复杂内容审查以及作为微调较小学生的教师模型等任务很有用。Hermes 4 405B 也经常作为进一步专业化的基础 部署——其已经强大的推理能力使领域微调更具样本效率。
Hardware Requirements
Hermes 4 14B 模型在 Q4_K_M 量化下约需 8.5GB VRAM,可在 RTX 3060 12GB 及以上的消费级 GPU 上运行。在 Q8_0 下,预计约 15GB。70B 模型在 Q4_K_M 下约需 40GB,可装入单块 48GB GPU(RTX 6000 Ada、A6000)或在两块 24GB GPU 上拆分。
405B 模型在 Q4_K_M 下约需 230GB,需要多 GPU 服务器设置(4x A100 80GB、8x A6000 48GB)或具有 512GB+ RAM 的大内存 CPU 推理系统。对于大多数希望获得 Hermes 4 能力但不需要 405B 硬件占用的团队,70B 变体提供了最佳的质量-资源比。
在 Ertas Studio 中微调时:14B QLoRA 需要 12-16GB VRAM,70B QLoRA 需要 40-48GB VRAM,405B QLoRA 需要多 GPU 服务器配置。请注意,推理模式训练每个示例生成的 token 比标准指令调优要多得多,因此在推理密集数据集上微调时,请为序列长度和梯度累积留出额外的 VRAM 余量。
Supported Quantizations
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.