Fine-Tune Magistral with Ertas

Mistral AI 的专属推理模型系列——Magistral Medium 1.2(magistral-medium-2509)和 Magistral Small 1.2(magistral-small-2509)——专注于扩展思维链能力,后续该系列被统一并入 Mistral Small 4。

SmallMediumMistral AI

Overview

Magistral 是 Mistral AI 的专属推理模型系列,最初于 2025 年发布,是该公司对 DeepSeek-R1 与 QwQ-32B 引领的专属推理模型趋势的回应。该系列包括 Magistral Small 和 Magistral Medium 变体,目前公开记录的最新版本为 2025 年 9 月发布的 Magistral Medium 1.2(`magistral-medium-2509`)和 Magistral Small 1.2(`magistral-small-2509`)。

Magistral 系列强调通过强化学习训练的扩展思维链推理,理念上与 DeepSeek-R1 的训练方法相似,但融入了 Mistral 独特的后训练流程和面向欧洲部署的定位。Magistral 模型瞄准的是推理深度比响应速度更重要的场景:数学问题求解、科学分析、复杂代码生成以及结构化推断任务。

2026 年 3 月,Mistral 宣布整合其模型系列:Magistral(推理)、Devstral(编码代理)和 Mistral Small(指令)被合并为单一的 Mistral Small 4 检查点。这次整合标志着 Magistral 作为独立产品线的终结,但 Magistral Medium 与 Small 变体仍可供那些在部署场景中更倾向于专属推理行为而非 Mistral Small 4 混合方案的团队使用。

对于在 2026 年评估 Mistral 推理能力的团队,推荐选择 Mistral Small 4 作为前进路径。Magistral 仍持续被记录和支持,适用于在整合发生之前已经采用该系列的稳定生产部署。

Key Features

专属推理训练是 Magistral 最初的差异化特性。通过强调思维链生成的强化学习训练,Magistral 模型会在最终答案之前生成扩展的推理轨迹——模式上类似于 DeepSeek-R1 与 QwQ-32B,带有 Mistral 特定的后训练特征。

面向欧洲部署的定位对部分团队而言是有意义的优势。Mistral AI 总部位于欧盟,具备强烈的数据主权定位,这使 Magistral 对受到监管或在政治偏好上倾向于非美、非中 AI 提供商的欧洲组织具有吸引力。这种定位也延续到了 Mistral Small 4。

Small/Medium 分级结构提供了部署灵活性。Magistral Small 以单 GPU 部署成本处理通用推理工作负载;Magistral Medium 则以多 GPU 服务器规模提供更高的峰值质量。这一范围让团队能够将推理模型规模与其实际部署基础设施相匹配。

Mistral 在后训练方面的深厚积累体现在 Magistral 的指令遵循稳定性与工具使用保真度上。虽然专属推理模型在智能体部署中有时会出现不稳定情况(推理模式可能干扰结构化输出),但 Magistral 的设计是为生产可靠性服务的,而不仅仅追求基准成绩。

Fine-Tuning with Ertas

在 Ertas Studio 中,Magistral Small 在典型序列长度下可使用 24-48GB GPU 通过 QLoRA 良好微调。考虑到参数量更大,Magistral Medium 需要多 GPU 服务器进行微调。

针对推理模式的微调,Ertas Studio 支持包含显式思维链轨迹的训练数据格式。在训练数据中包含思考轨迹有助于在微调后的模型中保留专属推理行为,而不会塌缩为直接响应模式。

训练完成后,Ertas Studio 会将 Magistral 微调结果导出为 GGUF 格式,并完整保留 Mistral 聊天模板。通过 Ollama、llama.cpp 或 vLLM 部署的方式与基础 Mistral 模型相同,配置流程简单直接。

对于大多数在 2026 年考虑新启动以推理为重点的微调项目的团队,我们推荐以 Mistral Small 4 而非 Magistral 作为起点——统一架构在运维上更高效,且在推理基准上达到或超越 Magistral 水平。对于已有流水线或在 Magistral 系列上已有部署投入的团队,继续微调 Magistral 仍然是合理选择。

Use Cases

Magistral 在 2026 年的主要使用场景是为在 Mistral Small 4 整合之前已经运行该系列的稳定生产部署服务。在这类部署中,微调过的团队往往更看重连续性而非迁移成本,尤其是当其下游评估流水线和提示模式已针对 Magistral 特有行为做过校准时。

对于具有严格数据主权要求的欧洲组织,Magistral(以及现在的 Mistral Small 4)仍是一个有吸引力的选择。在欧洲基础设施上的自托管部署能够提供完整的数据控制,同时利用 Mistral 的生态系统和支持关系。

专属推理工作负载——数学、科学分析、复杂代码生成——可受益于 Magistral 的扩展思维链能力。虽然 Mistral Small 4 中的统一思考模式方案在运维上更简单,但在推理是唯一任务且可以接受延迟代价的专门场景中,专属推理模型仍具备优势。

Hardware Requirements

Magistral Small 在 Q4_K_M 下根据具体变体通常需要 12-20GB 内存(Small 1.2 处于该区间的中段)。可在 24GB GPU 上单卡运行并保留余量。

Magistral Medium 在 Q4_K_M 下需要的内存大幅增加——根据变体通常为 60-100GB——并且建议采用多 GPU 部署用于生产服务。

关于在 Ertas Studio 中微调:Magistral Small QLoRA 需要 16-28GB VRAM,可在 24-32GB 单 GPU 上运行。Magistral Medium QLoRA 需要 80-120GB VRAM,通常在两块 48GB GPU 上拆分,或在单块 80GB GPU 上以激进的内存管理运行。对于新的微调项目,Mistral Small 4(具有 6B 活跃参数的 MoE 架构)能提供大幅更优的训练经济性。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

LM Studio

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →