Nous Research 的 Hermes 4 是合理用途遭主流安全訓練阻擋時最明確的選擇。該模型明確採取「中性對齊」立場——Nous 刻意避免施加重手的 RLHF 拒答訓練,產生一個不會出現當代他款模型常見過度拒答模式、能夠遵循指令的微調版本。Hermes 4 以 Llama 3.1 為基礎,並透過 Atropos RL 後訓練搭配約 1,000 個任務專屬驗證器,在對齊取向之外亦展現強大的推理能力。對於資安研究、紅隊評估、成熟向創意寫作以及涉及敏感議題的教育內容,Hermes 4 是出色之選。
Strengths
- 明確中性對齊——無重手拒答訓練
- Atropos RL 後訓練帶來強勁推理能力
- 混合 <think> 推理模式可彈性調整深度
- 繼承 Llama 3.1 的部署生態系
Trade-offs
- 繼承 Llama Community License 條款(非 Apache)
- 最小版本為 14B(無 8B 選項)
- 面向消費者的應用需搭配產品層級的安全控管
OpenChat 是社群對齊的微調版本,刻意避免基礎指令微調模型的過度拒答模式。雖然維護頻率不及 Hermes 4,OpenChat 在標準 Llama、Mistral 或 Qwen Instruct 版本會拒絕合理請求的情境中,仍被廣泛部署。其微調方法強調遵循指令,除基本安全外不再施加額外的對齊限制。
Strengths
- 社群對齊微調,降低拒答模式
- Apache 2.0 授權——完全可商用
- 成熟的部署生態系與穩定的正式環境表現
- 硬體需求低於 Hermes 4(提供 7B 版本)
Trade-offs
- 相較 Hermes 4 維護較不積極
- 在推理基準上落後 2026 年前沿水準
- 整合至正式環境安全機制的對齊工具較少
Mistral 過往對齊訓練的力道一直比美國實驗室更輕——所產出的模型在他款模型會拒絕的內容上更願意處理。Mistral Small 4 延續此模式——其指令微調行為對邊界請求比 Llama 3 Instruct 等更具配合度。搭配 Apache 2.0 授權、歐盟主權定位,以及 6B 啟用參數的 MoE 架構,Mistral Small 4 在重視歐洲部署且過度拒答會構成阻礙的應用中是強力之選。
Strengths
- 對齊訓練力道輕於美國模型
- Apache 2.0 授權——無商用限制
- 歐盟總部的開發商,具資料主權定位
- 6B 啟用參數的推論成本效益
Trade-offs
- 中性對齊明確程度不如 Hermes 4
- 對高風險請求仍保留部分拒答模式
包含 Qwen 系列在內的中國實驗室模型,普遍採用比美國替代品更輕的拒答訓練。Qwen 3.6 對邊界請求更願意遵循指令,同時維持強大的整體能力。Apache 2.0 授權搭配稠密 27B 版本可在單一 GPU 上部署,使 Qwen 3.6 易於取得。對於不需過度激進拒答訓練的多數情境,Qwen 3.6 是無需投入專門微調即可採用的可信預設選擇。
Strengths
- 拒答訓練力道輕於美國實驗室
- Apache 2.0 授權——完全可商用
- 稠密 27B 版本可在單張 24GB GPU 上部署
- 原生支援 119 種語言的多語能力
Trade-offs
- 對中國脈絡下政治敏感議題仍有部分內容過濾
- 中性對齊明確程度不如 Hermes 4
Llama 3 本身採用標準安全對齊,但它是許多社群無審查微調版本的基礎——其中最知名的是 Eric Hartford / cognitivecomputations 的 Dolphin 系列。這些微調在保留 Llama 3 底層能力的同時,移除了安全對齊層。對於明確希望採用 Dolphin 風格或類似對齊模型的團隊,Llama 3 是相關的起點基礎。對全新部署而言,Hermes 4 通常是更好的選擇,但對於已投入 Llama 生態系的團隊,Llama 3 + 社群微調仍是可行的途徑。
Strengths
- 廣泛的社群無審查微調生態系(Dolphin 等)
- 龐大的部署生態系與工具支援
- 多種參數規模(8B、70B、405B)可對應不同部署目標
Trade-offs
- 原版 Llama 3 Instruct 採標準拒答訓練
- 需自行挑選並驗證社群微調以達實際無審查效果
- Llama Community License 設有用量上限與標示要求