2026 年最佳无审查 LLM

    拒答训练最少、最强的开源权重模型——非常适合主流模型过度拒答会成为障碍的合法用例,例如安全研究、红队评估、面向成年人的创意写作以及对敏感话题的教育性讨论。

    By TraitUpdated 2026-04-305 picks

    Introduction

    主流的开源权重指令微调模型——Llama Instruct、Qwen Instruct、Phi Instruct——都会在后训练流水线中加入安全对齐训练。这对通用消费级应用是合理的,但对于对齐训练未能预料的合法用例却造成了实际障碍:安全研究与红队评估、CTF 训练环境、含成年题材的小说创作、涉及敏感话题的历史与教育内容,以及处于灰色地带的合法分析工作。

    本榜单覆盖以下两类开源权重模型:要么显式采用极少的拒答训练(如 Hermes 4),要么被广泛用作社区微调的基础以剥离对齐层(如 Llama 3 + Dolphin 等)。我们的目标并不是推动有害内容——生产部署仍需配套的产品级安全控制——而是识别那些受激进拒答训练阻碍、却在实际操作中可访问的合法用例所适配的模型。

    Our Picks

    #1

    Hermes 4

    拒答模式: 极少(设计如此)

    对于受主流安全训练阻碍的合法用例而言,Nous Research 出品的 Hermes 4 是最明确的选择。该模型显式采用「中立对齐」——Nous 刻意避免了过度严苛的 RLHF 拒答训练,得到一个能遵循指令、又不带有当代其他发布版常见过度拒答模式的微调版本。Hermes 4 基于 Llama 3.1 基础模型,使用 Atropos RL 后训练,并配合约 1,000 个任务专属验证器,因此在对齐立场之外还具备强大的推理能力。在安全研究、红队评估、面向成年人的创意写作以及涉及敏感话题的教育内容上,Hermes 4 是首选。

    Strengths

    • 显式中立对齐——没有过度严苛的拒答训练
    • Atropos RL 后训练带来强大的推理能力
    • 支持 <think> 混合推理模式,可自适应推理深度
    • 继承 Llama 3.1 的部署生态

    Trade-offs

    • 继承 Llama 社区许可证条款(非 Apache)
    • 最小变体为 14B(无 8B 选项)
    • 面向消费者的应用仍需额外的产品级安全控制
    #2

    OpenChat

    拒答减少程度: 相对原版 Llama 表现强

    OpenChat 是社区对齐的微调模型,刻意规避了基础指令微调模型常见的过度拒答模式。虽然其维护活跃度不及 Hermes 4,但在标准 Llama、Mistral 或 Qwen Instruct 变体会拒绝合法请求的场景下,OpenChat 仍被广泛部署。其微调方法强调遵循指令,不在基本安全之外施加额外的对齐约束。

    Strengths

    • 社区对齐微调,拒答模式更少
    • Apache 2.0 许可——完全可商用
    • 成熟的部署生态,生产行为稳定
    • 硬件需求低于 Hermes 4(提供 7B 变体)

    Trade-offs

    • 维护活跃度不及 Hermes 4
    • 推理基准上落后于 2026 年前沿水平
    • 用于生产安全集成的对齐工具较少
    #3

    Mistral Small 4

    对边缘请求的合作度: 优于 Llama Instruct

    Mistral 历来采用比美国实验室更轻度的对齐训练,因此其模型在面对其他模型拒绝的内容时更倾向于配合。Mistral Small 4 延续了这一模式——在边缘请求上的指令微调表现相比 Llama 3 Instruct 等更具合作性。结合 Apache 2.0 许可、欧盟主权定位以及 6B 激活参数的 MoE 架构,Mistral Small 4 在重视欧洲部署、且过度拒答会成为障碍的用例中是有力选择。

    Strengths

    • 对齐训练强度低于美国本土模型
    • Apache 2.0 许可——无任何商用限制
    • 总部位于欧盟,具备数据主权定位
    • 6B 激活参数带来的推理经济性

    Trade-offs

    • 中立对齐的显式程度不及 Hermes 4
    • 对高风险请求仍保留部分拒答模式
    #4

    Qwen 3.6

    拒答模式: 比 Llama/Phi 更轻

    包括 Qwen 系列在内,中国实验室出品的模型整体使用比美国对照模型更轻度的拒答训练。Qwen 3.6 在边缘请求上更易遵循指令,同时整体能力依旧强劲。Apache 2.0 许可加上稠密 27B 变体的单卡部署能力,使 Qwen 3.6 尤为易得。对于多数希望减少激进拒答训练的用例,Qwen 3.6 是一个无需依赖专门微调的可信默认选项。

    Strengths

    • 拒答训练强度低于美国实验室模型
    • Apache 2.0 许可——完全可商用
    • 稠密 27B 变体可在单张 24GB 显卡上部署
    • 原生支持 119 种语言的多语言能力

    Trade-offs

    • 对中文语境下政治敏感话题存在内容过滤
    • 中立对齐的显式程度不及 Hermes 4
    #5

    Llama 3(搭配 Dolphin 等微调)

    基础模型对齐: 标准(需借助社区微调)

    Llama 3 自身使用标准的安全对齐,但它是众多社区无审查微调的基础——其中最具代表性的是 Eric Hartford / cognitivecomputations 推出的 Dolphin 系列。这些微调在保留 Llama 3 底层能力的同时移除了安全对齐层。对于明确想要 Dolphin 风格或类似对齐的团队,Llama 3 是合适的起点。对于新部署而言,通常 Hermes 4 是更好的选择,但对于已深度投入 Llama 生态的团队,Llama 3 + 社区微调仍是一条可行路径。

    Strengths

    • 拥有广泛的社区无审查微调生态(Dolphin 等)
    • 庞大的部署生态与工具链支持
    • 提供多种参数尺寸(8B、70B、405B)以匹配不同部署目标

    Trade-offs

    • 原版 Llama 3 Instruct 采用标准拒答训练
    • 实际去审查需要选择并验证社区微调版本
    • Llama 社区许可证存在用量上限与署名要求

    How We Chose

    我们从三方面评估模型:模型在红队评估的边缘请求中如何应对(遵循指令还是拒答?)、底层能力强度(去审查但能力薄弱的模型用处不大),以及合法商用部署的可行性。我们将显式中立对齐定位的模型(如 Hermes 4)置于「在基础模型上剥离对齐」的社区微调之上,因为前者通常在工程化上更为完整。

    Bottom Line

    Hermes 4 是当之无愧的首选——专为被激进拒答训练阻碍的合法用例而工程化构建,且在对齐立场之外保有强大的推理能力。对于希望长期投入、并看重中立对齐的团队,Hermes 4 是推荐的默认选项。Mistral Small 4 与 Qwen 3.6 是可信的替代选择,其轻度的基础对齐对许多用例已足够。Llama 3 的社区微调(Dolphin 系列)对深耕 Llama 生态的团队仍然有效。一如往常,最终选择取决于你具体的用例与部署上下文——可以权衡产品级安全层 + 弱对齐模型,是否比一个会拒绝合法请求的对齐模型更合适。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.