Fine-Tune Devstral 2 with Ertas

Mistral AI 編碼特化的開放權重家族——Devstral 2（123B）和 Devstral Small 2（24B），其中 123B 變體在 SWE-Bench Verified 上取得 72.2% 分數，24B 可在消費級硬體上執行。在 2026 年 3 月被併入 Mistral Small 4 的統一架構之前，作為編碼專家系列發布。

24B (Small 2)123BMistral AI

Overview

Devstral 2 由 Mistral AI 作為更廣泛 2025 Devstral 編碼特化系列的一部分發布，是 Mistral 專屬代理編碼模型的第二代。該家族提供兩種規格：1230 億參數的旗艦（Devstral 2）與 240 億參數的消費級可部署變體（Devstral Small 2）。兩者皆為瞄準代理編碼工作負載的開放權重發布——這些是描繪 Claude Code、Cline 和 Aider 等基於 CLI 的編碼代理特徵的多步驟任務模式。

Devstral 2 的核心基準成果是在 SWE-Bench Verified 上取得 72.2% 分數——這是強勁分數，使其在發布時與頂尖開放權重編碼模型具競爭力。Devstral Small 2 在相同基準上取得 68.0% 分數，對於 24B 參數模型而言是極佳的成績，能與明顯更大的替代方案競爭。對於希望在消費級可部署規模上獲得強大編碼能力的團隊，Devstral Small 2 達到了特別富有成效的最佳取捨點。

Devstral 系列在 2026 年 3 月被實質併入 Mistral Small 4 的統一架構。Mistral 先前維持三條獨立模型線——Magistral 用於推理、Devstral 用於編碼、Mistral Small 用於指令調校用途——而 Mistral Small 4 將三者統一為單一的 119B-A6B 專家混合檢查點。對於新部署，建議採用 Mistral Small 4——但對於整合前已採用穩定生產部署的團隊，Devstral 2 仍然有效。

Devstral 2 作為專屬編碼專家的定位在特定部署場景中具有意義。雖然 Mistral Small 4 透過其統一架構涵蓋編碼，但 Devstral 2 系列專為代理編碼工作負載而設計——具備不同的後訓練重點、不同的評估套件、不同的部署模式。對於主要使用情境是編碼而非通用 AI 的團隊，Devstral 2 即使在整合後仍在特定利基中保有優勢。

Devstral 2 的授權涵蓋開放權重部署，但對於特定商業場景值得審視。Devstral Small 2 尤其在條款上設計用於支援消費產品部署而無嚴格使用上限。權重可在 Hugging Face 上的 Mistral 組織下取得。

Key Features

Devstral 2 在 SWE-Bench Verified 上的 72.2% 分數，使該模型在發布時與開放權重替代方案具競爭力。該基準衡量真實世界軟體工程能力——多檔案變更、測試驅動迭代、程式碼庫導航——而 Devstral 2 的分數反映了真正的生產級編碼能力，而非合成基準的最佳化。

Devstral Small 2 以 24B 參數在 SWE-Bench Verified 上取得 68.0% 分數，是突出的效率成果。對於消費級可部署規模而言，達到此分數極為出色——明顯超越通用 24B 替代方案，並接近大型編碼特化模型的能力。對於希望在消費級或工作站硬體上獲得前沿等級編碼能力的團隊，Devstral Small 2 是該家族中最強的選項之一。

編碼專家定位將 Devstral 2 與通用替代方案區分開來。雖然 Mistral Small 4 的統一架構透過通用後訓練涵蓋編碼，但 Devstral 2 特別瞄準代理編碼工作負載並具備適當的訓練資料重點——多步編碼軌跡、工具使用模式、測試驅動迭代範例。對於部署完全聚焦於編碼的團隊，這種特化在等效參數量下提供了相較於通用替代方案的品質優勢。

Mistral 強大的工具使用訓練傳統可良好轉化到 Devstral 2 的代理編碼能力。該模型以高保真度處理函式呼叫、結構化輸出與多步工具序列——這些能力對於代理編碼部署很重要，在這些部署中工具使用循環的可靠性往往比原始程式碼生成品質更為重要。

Fine-Tuning with Ertas

在 Ertas Studio 中對 Devstral 2 進行微調，跨兩個變體都很簡單。Devstral Small 2（24B）可在消費級 GPU 上進行 QLoRA 微調（16-24GB VRAM），是無伺服器級基礎架構團隊最易取得的編碼專家基礎之一。Devstral 2（123B）需要工作站或入門級伺服器配置——在典型序列長度下進行 QLoRA 需 48GB 以上 GPU。

針對編碼領域微調，Devstral 2 受益於包含完整代理執行軌跡的訓練資料——任務描述、規劃、多檔案編輯、測試輸出與修正迭代。Ertas Studio 原生支援這些多步驟格式，包括來自 Claude Code、Cline 或 Aider 執行的工具使用軌跡。在您團隊的特定程式碼庫上進行訓練，可產生在您程式碼庫內任務上勝過基礎模型的領域特化編碼模型。

對於在 Devstral 2 微調與 Mistral Small 4 微調之間做選擇的團隊，建議取決於部署輪廓。Mistral Small 4 的 60 億活躍參數量為包括編碼在內的通用特化提供了更佳的微調經濟性。對於微調變體將完全用於編碼工作負載的團隊，Devstral 2 提供稍佳的編碼基線能力——但隨著 Mistral Small 4 的發布，差距已大幅縮小。

訓練完成後，Ertas Studio 匯出為 GGUF 格式並完整保留 Devstral 2 聊天範本。兩個變體都可透過 Ollama、llama.cpp 或 vLLM 以標準設定乾淨地部署。

Use Cases

在消費級或工作站硬體上自託管編碼代理部署，是 Devstral Small 2 最自然的使用情境。希望取得強大編碼代理能力但不想投入伺服器基礎架構的 5-20 名開發者團隊，會發現 Devstral Small 2 在 24B 規格類別中是最易取得的選項之一。生產模式包括小型企業程式碼庫的 AI 結對程式設計、針對例行變更模式的自主 PR 生成，以及在中等請求量下整合 CI 的程式碼審查。

123B 的 Devstral 2 瞄準較大團隊部署，在這些情況下額外的能力可證明工作站/伺服器硬體投資的合理性。大型企業程式碼庫的 AI 結對程式設計、處理複雜重構的自主編碼代理，以及高吞吐量程式碼審查自動化，都受益於 123B 變體更強的基線能力。

對於在 Mistral Small 4 整合前已在 Devstral 2 上執行穩定生產部署的團隊，該模型仍維持文件支援。遷移到 Mistral Small 4 提供營運簡化（一個模型取代三條獨立系列），但對於具備現有 Devstral 特定微調或下游工具的團隊，會產生不可忽略的遷移成本。在這些場景下繼續使用 Devstral 2 部署是有效選擇。

對於歐洲團隊或任何受資料主權要求限制的部署，Mistral 的歐盟總部定位結合 Devstral 2 的開放權重發布，提供了相較於美國或中國實驗室替代方案的結構性優勢。在歐盟基礎架構上以歐盟開發模型進行自託管部署，符合部分監管環境特別要求的合規規定。

Hardware Requirements

Devstral Small 2 在 Q4_K_M 量化下需要約 14GB 記憶體，可在 RTX 3090 24GB 與 RTX 4090 起的消費級 GPU 上運作。在 Q8_0 下，預計約需 26GB。24B 規格使其可在工作站硬體上部署，這比伺服器級基礎架構更易取得。

Devstral 2 在 Q4_K_M 下需要約 70GB，可在單張 80GB GPU（A100 80GB、H100 80GB）上執行，或透過張量平行化分散在兩張 48GB GPU 上。在 Q8_0 下，預計約需 130GB。在配備 192GB 以上 RAM 的主機上可進行 CPU 推論，但吞吐量遠低於 GPU 部署。

在 Ertas Studio 中進行微調：在典型序列長度下，Devstral Small 2 QLoRA 需 16-24GB VRAM，可在單張消費級 GPU（RTX 4090、RTX 5090）上執行。Devstral 2 QLoRA 需 50-80GB VRAM，可在單張 80GB GPU 上執行，或透過模型平行化分散在兩張 48GB GPU 上。長上下文微調（32K-64K 序列）使用梯度檢查點時需要按比例增加記憶體。