Fine-Tune Mixtral with Ertas

Mistral AI 的混合专家模型，将每个 token 路由通过 8 个专家网络中的 2 个，8x7B 变体以 13B 稠密模型的成本提供 70B 级别的性能。

8x7B8x22BMistral AI

Overview

Mixtral 由 Mistral AI 分别于 2023 年 12 月（8x7B）和 2024 年 4 月（8x22B）发布，将混合专家（MoE）架构带入了主流开放权重模型生态系统。8x7B 变体包含 467 亿总参数，但每次前向传播仅激活 129 亿，方式是将每个 token 路由通过 8 个专家前馈网络中的 2 个。结果是一个在大多数基准测试上达到或超越 Llama 2 70B 的模型，同时运行速度大致相当于 13B 稠密模型。

8x22B 变体大幅扩展了这一方法，总参数 1410 亿，每个 token 约 39B 活跃。该模型与当时最好的开放权重模型竞争，在推理、代码、数学和多语言任务上表现强劲。两个变体都使用了 Mistral 7B 引入的相同滑动窗口注意力机制。

MoE 架构使用学习到的路由网络为每个 token 分配最相关的两个专家。不同的专家倾向于专注于不同类型的内容——有些可能聚焦于代码，有些聚焦于数学推理，其他聚焦于自然语言——尽管这种专业化是在训练过程中自然产生的，而非显式编程。

两个模型均在 Apache 2.0 许可下发布，已成为质量要求高但计算预算有限的生产部署的热门选择。

Key Features

稀疏混合专家架构是 Mixtral 对开放权重生态系统的核心创新。路由网络增加的开销可以忽略不计，而专家选择机制确保计算成本随活跃参数数量而非总参数数量扩展。这意味着 Mixtral 8x7B 处理 token 的速度几乎与 13B 稠密模型相同，尽管拥有更大模型的知识容量。

Mixtral 8x7B 支持 32K token 的上下文窗口，适合处理较长的文档、扩展对话和多文件代码分析。8x22B 变体还支持 65K 上下文。两者都使用分组查询注意力进行高效的 KV 缓存管理。

两个模型的指令变体展示了强大的指令遵循能力、工具使用和结构化输出生成。Mixtral 8x7B Instruct 是首批在 Chatbot Arena 排行榜上达到 GPT-3.5 级别性能的开放权重模型之一，验证了 MoE 方法在实际助手应用中的可行性。

Fine-Tuning with Ertas

在 Ertas Studio 中微调 Mixtral 8x7B 需要仔细考虑 MoE 架构。虽然模型每个 token 仅激活 12.9B 参数，但所有 46.7B 参数都必须加载到内存中。使用 4 位量化的 QLoRA，微调约需 28-32GB VRAM——单块 A100 40GB GPU 或双 RTX 4090 GPU 即可实现。Ertas Studio 自动处理 MoE 感知的 LoRA 适配器放置，针对活跃专家层和共享注意力组件。

对于 Mixtral 8x22B，QLoRA 微调约需 80-90GB VRAM，需要 A100 80GB 或多 GPU 配置。尽管内存需求更高，但训练吞吐量良好，因为梯度计算仅通过每个 token 的活跃专家传播。

Ertas Studio 的可视化界面使配置 MoE 微调变得简单。选择 Mixtral 作为基础模型，上传数据集，平台会推荐适当的 LoRA rank 和目标模块。训练完成后，导出为 GGUF 格式并通过 Ollama 或 llama.cpp 部署，两者均原生支持 MoE 推理。

Use Cases

Mixtral 8x7B 非常适合需要明显优于 7B 模型质量但无法承担稠密 70B 模型推理成本的生产部署。它擅长复杂指令遵循、多步骤推理和代码生成，同时保持快速的推理速度。常见部署包括 API 服务场景、企业聊天机器人和 RAG 增强知识系统。

8x22B 变体面向高能力应用：高级代码生成和审查、技术写作、研究分析和复杂的多轮问题求解。需要接近前沿模型质量同时将数据保留在本地的组织通常选择 Mixtral 8x22B 作为主力模型。

两个变体在多语言任务上表现出色，支持英语、法语、意大利语、德语和西班牙语的流畅生成。这使 Mixtral 成为需要单一模型服务多个语言市场的国际化组织的有力选择。

Hardware Requirements

Mixtral 8x7B 在 Q4_K_M 量化下约需 26GB 内存。尽管每个 token 仅激活 13B 参数，但所有 47B 参数必须驻留在内存中，因为不同的 token 可能路由到不同的专家。可在配备 32GB 以上内存的系统上进行 CPU 推理，或在 RTX 4090 24GB（紧凑）或 A6000 48GB 等 GPU 上运行。在 Q8_0 下约需 50GB。

Mixtral 8x22B 在 Q4_K_M 下约需 80GB，适合 A100 80GB 或多 GPU 配置。在 Q8_0 下需求增长至约 150GB，通常需要 2-4 块高 VRAM GPU 或大内存 CPU 推理。

Mixtral 的推理速度相对于模型质量非常出色，因为每个 token 仅计算活跃专家权重。在 A100 80GB 上，Mixtral 8x7B 通常每秒可生成 40-60 个 token，与运行 13B 稠密模型相当。在现代硬件上使用 Q4_K_M 的 CPU 推理（例如 M2 Ultra 或 Threadripper）通常每秒可达 15-25 个 token。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →