What is 混合推理（Hybrid Reasoning）?

一种模型架构模式，将扩展的思维链推理集成到标准聊天检查点中，并通过运行时控制在快速直接响应和较慢深思熟虑推理之间切换——取代了较旧的独立推理专用模型模式。

Definition

混合推理描述了 2026 代旗舰模型采用的架构模式——Qwen 3+、DeepSeek V3.2 / V4、Hermes 4、Mistral Small 4——其中推理能力被集成到单个模型检查点中，并具有运行时切换以控制模型在响应前是否思考。当切换关闭（或思考预算设为零）时，模型像传统指令微调模型一样产生直接答案。启用时，模型首先生成内部推理轨迹——通常以 `<think>...</think>` 标记或类似方式标识——然后产生最终答案。

这与 2025 年时代的独立推理专用模型如 DeepSeek-R1 或 QwQ-32B 的模式有显著差异，后者无论查询难度如何都始终推理。

Why It Matters

在运营上，混合推理将之前复杂的部署拓扑（推理模型 + 聊天模型 + 路由层）折叠为带有控制参数的单个检查点。对于大多数生产团队，这是显著的简化。从质量角度看，混合模型在推理基准上与专用推理模型匹配或超越，同时仍可用于一般聊天——意味着单个部署服务于比任何专门模型都更广泛的工作负载组合。

Key Takeaways

混合推理将思维链能力集成到标准聊天检查点中
运行时切换（或思考预算参数）控制每个查询的推理深度
取代了 2025 年较旧的独立推理专用模型模式（如 R1 和 QwQ-32B）
运营上比维护独立的推理和聊天部署更简单
Qwen 3+、DeepSeek V3.2/V4、Hermes 4、Mistral Small 4（Magistral 谱系）已采用

How Ertas Helps

在 Ertas Studio 中微调混合推理模型时，包含直接响应示例和带显式推理轨迹示例（带 `<think>` 标签或等效标记）的训练数据可在微调模型中保留自适应行为。如果没有混合训练数据，微调的混合模型往往会塌缩到一种模式或另一种——失去使其在运营上有价值的运行时适应性。

Related Resources

DPO (Direct Preference Optimization)

Fine-Tuning

Instruction Tuning

RLHF (Reinforcement Learning from Human Feedback)

llama.cpp

Ollama

vLLM

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →