Fine-Tune Mixtral with Ertas

    Mistral AI 的混合專家模型,將每個 token 路由到 8 個專家網路中的 2 個,8x7B 變體以 13B 密集模型的成本提供 70B 級效能。

    8x7B8x22BMistral AI

    Overview

    Mixtral 由 Mistral AI 於 2023 年 12 月(8x7B)和 2024 年 4 月(8x22B)發布,將混合專家(MoE)架構帶入了主流開放權重模型生態系統。8x7B 變體包含 46.7B 總參數,但每次前向傳播僅透過將每個 token 路由到 8 個專家前饋網路中的 2 個來激活 12.9B。結果是一個在大多數基準測試上匹敵或超越 Llama 2 70B 的模型,同時以大約 13B 密集模型的速度執行。

    8x22B 變體大幅擴展了這一方法,擁有 141B 總參數,每個 token 約 39B 活躍。這個模型與可用的最佳開放權重模型競爭,在推理、程式碼、數學和多語言任務上提供強勁效能。兩個變體都使用 Mistral 7B 中引入的相同滑動視窗注意力機制。

    MoE 架構使用學習的路由器網路為每個 token 分配兩個最相關的專家。不同的專家傾向於專精不同類型的內容——有些可能專注於程式碼,其他專注於數學推理,還有些專注於自然語言——儘管這種專化是在訓練過程中自然湧現的,而非被明確程式化。

    兩個模型都以 Apache 2.0 授權發布,已成為品質要求高但運算預算有限的生產部署的熱門選擇。

    Key Features

    稀疏混合專家架構是 Mixtral 對開放權重生態系統的核心創新。路由器網路增加的開銷可忽略不計,而專家選擇機制確保運算成本隨活躍參數而非總參數擴展。這意味著 Mixtral 8x7B 以與 13B 密集模型幾乎相同的速度處理 token,同時擁有更大模型的知識容量。

    Mixtral 8x7B 支援 32K token 的上下文視窗,適合處理較長的文件、延伸對話和多檔案程式碼分析。8x22B 變體也支援 65K 上下文。兩者都使用分組查詢注意力進行高效的 KV 快取管理。

    兩個模型的指令變體展現了強大的指令跟隨能力、工具使用和結構化輸出生成。Mixtral 8x7B Instruct 是首批在 Chatbot Arena 排行榜上達到 GPT-3.5 級效能的開放權重模型之一,驗證了 MoE 方法在實際助手應用中的可行性。

    Fine-Tuning with Ertas

    在 Ertas Studio 中微調 Mixtral 8x7B 需要仔細考慮 MoE 架構。雖然模型每個 token 僅激活 12.9B 參數,但所有 46.7B 參數都必須載入記憶體。使用 4 位量化的 QLoRA,微調需要約 28-32GB VRAM——可在單張 A100 40GB GPU 或雙 RTX 4090 GPU 上實現。Ertas Studio 自動處理 MoE 感知的 LoRA 適配器放置,針對活躍專家層和共享注意力組件。

    對於 Mixtral 8x22B,QLoRA 微調需要約 80-90GB VRAM,需要 A100 80GB 或多 GPU 配置。儘管記憶體需求更高,但由於梯度運算僅流過每個 token 的活躍專家,訓練吞吐量是良好的。

    Ertas Studio 的視覺化介面使 MoE 微調配置變得簡單。選擇 Mixtral 作為基礎模型,上傳資料集,平台會推薦適當的 LoRA rank 和目標模組。訓練後,匯出為 GGUF 格式並透過 Ollama 或 llama.cpp 部署,兩者都原生支援 MoE 推論。

    Use Cases

    Mixtral 8x7B 是生產部署的絕佳選擇,當您需要比 7B 模型顯著更好的品質但無法承擔密集 70B 模型的推論成本時。它在複雜指令跟隨、多步驟推理和程式碼生成方面表現出色,同時保持快速的推論速度。常見的部署包括 API 服務場景、企業聊天機器人和 RAG 增強知識系統。

    8x22B 變體針對高能力應用:高級程式碼生成和審查、技術寫作、研究分析和複雜的多輪問題解決。需要接近前沿模型品質同時將資料保留在本地的組織通常選擇 Mixtral 8x22B 作為其主要模型。

    兩個變體在多語言任務上表現良好,支援英語、法語、義大利語、德語和西班牙語的流暢生成。這使 Mixtral 成為需要單一模型服務多個語言市場的國際組織的強力選擇。

    Hardware Requirements

    Mixtral 8x7B 在 Q4_K_M 量化下需要約 26GB RAM。儘管每個 token 僅激活 13B 參數,所有 47B 參數都必須駐留在記憶體中,因為不同的 token 可能路由到不同的專家。可在配備 32GB 以上 RAM 的系統上進行 CPU 推論,或在 RTX 4090 24GB(緊湊配合)或 A6000 48GB 等 GPU 上執行。在 Q8_0 下,預計約 50GB。

    Mixtral 8x22B 在 Q4_K_M 下需要約 80GB,適合 A100 80GB 或多 GPU 配置。在 Q8_0 下,需求增長至約 150GB,通常需要 2-4 張高 VRAM GPU 或大記憶體 CPU 推論。

    Mixtral 的推論速度相對於模型品質非常出色,因為每個 token 僅計算活躍的專家權重。在 A100 80GB 上,Mixtral 8x7B 通常每秒生成 40-60 個 token,與執行 13B 密集模型相當。在現代硬體(如 M2 Ultra 或 Threadripper)上使用 Q4_K_M 的 CPU 推論通常每秒 15-25 個 token。

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.