Fine-Tune Mixtral with Ertas

Mistral AI 的混合專家模型，將每個 token 路由到 8 個專家網路中的 2 個，8x7B 變體以 13B 密集模型的成本提供 70B 級效能。

8x7B8x22BMistral AI

Overview

Mixtral 由 Mistral AI 於 2023 年 12 月（8x7B）和 2024 年 4 月（8x22B）發布，將混合專家（MoE）架構帶入了主流開放權重模型生態系統。8x7B 變體包含 46.7B 總參數，但每次前向傳播僅透過將每個 token 路由到 8 個專家前饋網路中的 2 個來激活 12.9B。結果是一個在大多數基準測試上匹敵或超越 Llama 2 70B 的模型，同時以大約 13B 密集模型的速度執行。

8x22B 變體大幅擴展了這一方法，擁有 141B 總參數，每個 token 約 39B 活躍。這個模型與可用的最佳開放權重模型競爭，在推理、程式碼、數學和多語言任務上提供強勁效能。兩個變體都使用 Mistral 7B 中引入的相同滑動視窗注意力機制。

MoE 架構使用學習的路由器網路為每個 token 分配兩個最相關的專家。不同的專家傾向於專精不同類型的內容——有些可能專注於程式碼，其他專注於數學推理，還有些專注於自然語言——儘管這種專化是在訓練過程中自然湧現的，而非被明確程式化。

兩個模型都以 Apache 2.0 授權發布，已成為品質要求高但運算預算有限的生產部署的熱門選擇。

Key Features

稀疏混合專家架構是 Mixtral 對開放權重生態系統的核心創新。路由器網路增加的開銷可忽略不計，而專家選擇機制確保運算成本隨活躍參數而非總參數擴展。這意味著 Mixtral 8x7B 以與 13B 密集模型幾乎相同的速度處理 token，同時擁有更大模型的知識容量。

Mixtral 8x7B 支援 32K token 的上下文視窗，適合處理較長的文件、延伸對話和多檔案程式碼分析。8x22B 變體也支援 65K 上下文。兩者都使用分組查詢注意力進行高效的 KV 快取管理。

兩個模型的指令變體展現了強大的指令跟隨能力、工具使用和結構化輸出生成。Mixtral 8x7B Instruct 是首批在 Chatbot Arena 排行榜上達到 GPT-3.5 級效能的開放權重模型之一，驗證了 MoE 方法在實際助手應用中的可行性。

Fine-Tuning with Ertas

在 Ertas Studio 中微調 Mixtral 8x7B 需要仔細考慮 MoE 架構。雖然模型每個 token 僅激活 12.9B 參數，但所有 46.7B 參數都必須載入記憶體。使用 4 位量化的 QLoRA，微調需要約 28-32GB VRAM——可在單張 A100 40GB GPU 或雙 RTX 4090 GPU 上實現。Ertas Studio 自動處理 MoE 感知的 LoRA 適配器放置，針對活躍專家層和共享注意力組件。

對於 Mixtral 8x22B，QLoRA 微調需要約 80-90GB VRAM，需要 A100 80GB 或多 GPU 配置。儘管記憶體需求更高，但由於梯度運算僅流過每個 token 的活躍專家，訓練吞吐量是良好的。

Ertas Studio 的視覺化介面使 MoE 微調配置變得簡單。選擇 Mixtral 作為基礎模型，上傳資料集，平台會推薦適當的 LoRA rank 和目標模組。訓練後，匯出為 GGUF 格式並透過 Ollama 或 llama.cpp 部署，兩者都原生支援 MoE 推論。

Use Cases

Mixtral 8x7B 是生產部署的絕佳選擇，當您需要比 7B 模型顯著更好的品質但無法承擔密集 70B 模型的推論成本時。它在複雜指令跟隨、多步驟推理和程式碼生成方面表現出色，同時保持快速的推論速度。常見的部署包括 API 服務場景、企業聊天機器人和 RAG 增強知識系統。

8x22B 變體針對高能力應用：高級程式碼生成和審查、技術寫作、研究分析和複雜的多輪問題解決。需要接近前沿模型品質同時將資料保留在本地的組織通常選擇 Mixtral 8x22B 作為其主要模型。

兩個變體在多語言任務上表現良好，支援英語、法語、義大利語、德語和西班牙語的流暢生成。這使 Mixtral 成為需要單一模型服務多個語言市場的國際組織的強力選擇。

Hardware Requirements

Mixtral 8x7B 在 Q4_K_M 量化下需要約 26GB RAM。儘管每個 token 僅激活 13B 參數，所有 47B 參數都必須駐留在記憶體中，因為不同的 token 可能路由到不同的專家。可在配備 32GB 以上 RAM 的系統上進行 CPU 推論，或在 RTX 4090 24GB（緊湊配合）或 A6000 48GB 等 GPU 上執行。在 Q8_0 下，預計約 50GB。

Mixtral 8x22B 在 Q4_K_M 下需要約 80GB，適合 A100 80GB 或多 GPU 配置。在 Q8_0 下，需求增長至約 150GB，通常需要 2-4 張高 VRAM GPU 或大記憶體 CPU 推論。

Mixtral 的推論速度相對於模型品質非常出色，因為每個 token 僅計算活躍的專家權重。在 A100 80GB 上，Mixtral 8x7B 通常每秒生成 40-60 個 token，與執行 13B 密集模型相當。在現代硬體（如 M2 Ultra 或 Threadripper）上使用 Q4_K_M 的 CPU 推論通常每秒 15-25 個 token。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →