Fine-Tune Mistral Small 4 with Ertas

Mistral 於 2026 年 3 月推出的版本，將先前獨立的 Magistral（推理）、Devstral（程式設計代理）與 Mistral Small（指令微調）產品線統一為單一的 119B 專家混合模型，活躍參數為 6B，以 Apache 2.0 授權發布。

119B-A6BMistral AI

Overview

Mistral Small 4 由 Mistral AI 於 2026 年 3 月發布，代表了 Mistral 產品面的重大簡化。Mistral 過去維護三條獨立的模型產品線——Magistral 用於推理、Devstral 用於代理式程式設計、Mistral Small 用於通用指令微調使用——而 Mistral Small 4 將這三者統一為單一的專家混合檢查點。架構為總計 119B 參數，每個 token 約有 6B 活躍，以 Apache 2.0 授權發布。

此整併是 Mistral 在 2026 年的重大故事。從運作角度來看，它消除了生產部署需要維護三個獨立模型成品與路由邏輯的需求——單一的 Mistral Small 4 端點即可服務程式設計、推理與一般指令工作負載。從品質角度來看，統一的後訓練流程產生的模型在各自領域中與先前各個專用變體具有競爭力，同時提供顯著更佳的跨領域效能。

6B 的活躍參數量讓 Mistral Small 4 擁有出色的推論經濟性。Token 生成吞吐量可媲美 6B 密集模型——完全在消費級 GPU 的運作範圍內——而 119B 的總參數容量在大多數基準上提供了與 30B-70B 範圍中階密集模型具有競爭力的品質。這使得 Mistral Small 4 成為生產 API 服務最具吸引力的選擇之一，特別是在 token 成本與延遲同等重要的場景下。

權重於 Hugging Face 的 `mistralai/Mistral-Small-4` 取得。Apache 2.0 授權結合 Mistral 在高品質後訓練的紀錄，使此版本對受嚴格資料主權需求約束的歐洲團隊特別具有吸引力，亦適合任何重視直接授權的商業部署。

Key Features

推理、程式設計與指令微調能力的統一是 Mistral Small 4 最具代表性的特徵。模型包含 Magistral 風格的延伸推理能力——可透過類似 Qwen 3+ 與 DeepSeek V4 的思考模式切換存取。它包含 Devstral 風格的代理式程式設計工具使用保真度，對函式呼叫架構與結構化輸出有強大遵循度。並保留了使原始 Mistral Small 產品線受歡迎的對話流暢度與指令遵循品質。所有三項能力都可從同一個檢查點存取，無需切換權重。

6B 活躍參數的推論輪廓對於模型的有效品質範圍而言相當出色。在大多數基準上，Mistral Small 4 的表現可媲美 30B-70B 參數範圍的密集模型，但推論成本僅為 6B 模型。這與成就 Qwen 3-30B-A3B 與 Mixtral 8x7B 的架構模式相同，並擴展至更高的總參數規模，品質上限因此顯著提升。

Apache 2.0 授權與 Mistral 更廣泛的開源定位一致。不同於 Codestral（採用 MNPL——僅供研究使用，無商業授權）與專有的 Magistral Medium API，Mistral Small 4 完全開放商業使用，包括衍生訓練、微調與專有整合，無需另行授權安排。

Mistral Small 4 繼承了 Mistral 強大的多語言能力，特別是跨歐洲語言。法語、德語、義大利語、西班牙語、葡萄牙語與荷蘭語都有生產品質的覆蓋。對於歐洲團隊而言，這結合 Mistral 的歐盟資料主權定位，使 Mistral Small 4 成為相對於美國或中國開放權重替代方案的天然預設選擇。

Fine-Tuning with Ertas

Mistral Small 4 的 6B 活躍參數量使其相對於 119B 總參數而言，微調效率異常高。在 Ertas Studio 中，QLoRA 微調可舒適地運行於 24GB 消費級 GPU 上，並支援高達 8K-16K token 的完整序列長度——比微調 30B-70B 範圍中同等品質的密集模型（通常需要 48GB+ GPU）更加普及。

MoE 架構引入了一些 Ertas Studio 會自動處理的微調考量：低秩適配期間的專家路由穩定性、跨專家平衡負載以防止崩塌，以及在匯出時將 LoRA 適配器與 MoE 基礎權重正確合併。使用者無需手動配置這些——平台會根據 Mistral Small 4 架構套用適當的預設值。

就微調資料集而言，Mistral Small 4 支援完整範圍的訓練資料格式：標準指令遵循配對、多輪對話、代理工具使用軌跡，以及帶有明確思考軌跡的推理模式資料。模型的統一架構意味著單一微調檢查點即可在後訓練後處理所有這些任務類型，消除了為不同任務類型進行獨立專用微調的需求。

訓練完成後，Ertas Studio 匯出為 GGUF 格式，並完整保留 Mistral Small 4 的對話模板。完整 119B-A6B 模型的 Q4_K_M 量化約為 65GB，可部署於單張 80GB GPU 或分散於兩張 48GB GPU。對於大多數生產使用情境，Q4_K_M 量化的微調在品質與資源效率上提供了極佳的平衡。

Use Cases

生產 API 服務是 Mistral Small 4 最強的使用情境。6B 級推論經濟性、強大跨領域品質與 Apache 2.0 授權的結合，使其成為高吞吐量聊天機器人部署、內容審核流程、文件處理系統與客戶支援自動化的理想選擇。Token 成本經濟性通常勝過需要更大活躍參數量的其他開放權重選擇。

對於歐洲團隊或任何具有嚴格資料主權需求的組織，Mistral Small 4 是天然的預設選擇。在歐洲基礎設施上自行託管部署能對資料居留地提供完整控制權，而 Apache 2.0 授權消除了基於美國或中國的授權疑慮。Mistral 在歐洲語言上強大的多語言能力為這些部署增添了進一步的價值。

統一模型也非常適合運作簡潔性至關重要的環境。先前維護獨立 Magistral、Devstral 與 Mistral Small 端點的工程團隊，可以收斂為單一的 Mistral Small 4 部署，減少運作面積、簡化容量規劃，並消除跨模型的路由邏輯。對於擁有成熟 Mistral 整合的團隊而言，這項好處本身往往足以證明遷移的合理性。

Hardware Requirements

Mistral Small 4 在 Q4_K_M 量化下約需 65GB 記憶體，可在單張 80GB GPU（A100 80GB、H100 80GB）上運行，或以張量平行分散於兩張 48GB GPU。在 Q8_0 下預期約 120GB。6B 的活躍參數量決定了 token 生成吞吐量，因此載入後模型以約 6B 級速度服務——完全在互動應用的運作範圍內。

對於消費級硬體部署，Q3_K_M 量化（約 50GB）是最低的實用設定。可在使用 MLX 後端的 64GB Apple Silicon 系統（M2 Ultra、M3 Ultra Mac Studio、M4 Pro/Max）上運行，或在 48GB GPU 上有充裕餘量地運行。在配備 96GB+ RAM 的系統上僅 CPU 推論可行，但吞吐量遠低於 GPU 部署。

在 Ertas Studio 中進行微調：Mistral Small 4 搭配 QLoRA 在典型序列長度（4K token）下約需 22-28GB VRAM，可在單張 24GB GPU 上運行。對於更長上下文訓練（16K+ token），預期需 32-40GB VRAM 並啟用梯度檢查點。相對於模型有效品質而言，相對較低的微調記憶體佔用是選擇 Mistral Small 4 而非同等密集替代方案的最強理由之一。