Fine-Tune Mixtral with Ertas

    Mistral AI 的混合专家模型,将每个 token 路由通过 8 个专家网络中的 2 个,8x7B 变体以 13B 稠密模型的成本提供 70B 级别的性能。

    8x7B8x22BMistral AI

    Overview

    Mixtral 由 Mistral AI 分别于 2023 年 12 月(8x7B)和 2024 年 4 月(8x22B)发布,将混合专家(MoE)架构带入了主流开放权重模型生态系统。8x7B 变体包含 467 亿总参数,但每次前向传播仅激活 129 亿,方式是将每个 token 路由通过 8 个专家前馈网络中的 2 个。结果是一个在大多数基准测试上达到或超越 Llama 2 70B 的模型,同时运行速度大致相当于 13B 稠密模型。

    8x22B 变体大幅扩展了这一方法,总参数 1410 亿,每个 token 约 39B 活跃。该模型与当时最好的开放权重模型竞争,在推理、代码、数学和多语言任务上表现强劲。两个变体都使用了 Mistral 7B 引入的相同滑动窗口注意力机制。

    MoE 架构使用学习到的路由网络为每个 token 分配最相关的两个专家。不同的专家倾向于专注于不同类型的内容——有些可能聚焦于代码,有些聚焦于数学推理,其他聚焦于自然语言——尽管这种专业化是在训练过程中自然产生的,而非显式编程。

    两个模型均在 Apache 2.0 许可下发布,已成为质量要求高但计算预算有限的生产部署的热门选择。

    Key Features

    稀疏混合专家架构是 Mixtral 对开放权重生态系统的核心创新。路由网络增加的开销可以忽略不计,而专家选择机制确保计算成本随活跃参数数量而非总参数数量扩展。这意味着 Mixtral 8x7B 处理 token 的速度几乎与 13B 稠密模型相同,尽管拥有更大模型的知识容量。

    Mixtral 8x7B 支持 32K token 的上下文窗口,适合处理较长的文档、扩展对话和多文件代码分析。8x22B 变体还支持 65K 上下文。两者都使用分组查询注意力进行高效的 KV 缓存管理。

    两个模型的指令变体展示了强大的指令遵循能力、工具使用和结构化输出生成。Mixtral 8x7B Instruct 是首批在 Chatbot Arena 排行榜上达到 GPT-3.5 级别性能的开放权重模型之一,验证了 MoE 方法在实际助手应用中的可行性。

    Fine-Tuning with Ertas

    在 Ertas Studio 中微调 Mixtral 8x7B 需要仔细考虑 MoE 架构。虽然模型每个 token 仅激活 12.9B 参数,但所有 46.7B 参数都必须加载到内存中。使用 4 位量化的 QLoRA,微调约需 28-32GB VRAM——单块 A100 40GB GPU 或双 RTX 4090 GPU 即可实现。Ertas Studio 自动处理 MoE 感知的 LoRA 适配器放置,针对活跃专家层和共享注意力组件。

    对于 Mixtral 8x22B,QLoRA 微调约需 80-90GB VRAM,需要 A100 80GB 或多 GPU 配置。尽管内存需求更高,但训练吞吐量良好,因为梯度计算仅通过每个 token 的活跃专家传播。

    Ertas Studio 的可视化界面使配置 MoE 微调变得简单。选择 Mixtral 作为基础模型,上传数据集,平台会推荐适当的 LoRA rank 和目标模块。训练完成后,导出为 GGUF 格式并通过 Ollama 或 llama.cpp 部署,两者均原生支持 MoE 推理。

    Use Cases

    Mixtral 8x7B 非常适合需要明显优于 7B 模型质量但无法承担稠密 70B 模型推理成本的生产部署。它擅长复杂指令遵循、多步骤推理和代码生成,同时保持快速的推理速度。常见部署包括 API 服务场景、企业聊天机器人和 RAG 增强知识系统。

    8x22B 变体面向高能力应用:高级代码生成和审查、技术写作、研究分析和复杂的多轮问题求解。需要接近前沿模型质量同时将数据保留在本地的组织通常选择 Mixtral 8x22B 作为主力模型。

    两个变体在多语言任务上表现出色,支持英语、法语、意大利语、德语和西班牙语的流畅生成。这使 Mixtral 成为需要单一模型服务多个语言市场的国际化组织的有力选择。

    Hardware Requirements

    Mixtral 8x7B 在 Q4_K_M 量化下约需 26GB 内存。尽管每个 token 仅激活 13B 参数,但所有 47B 参数必须驻留在内存中,因为不同的 token 可能路由到不同的专家。可在配备 32GB 以上内存的系统上进行 CPU 推理,或在 RTX 4090 24GB(紧凑)或 A6000 48GB 等 GPU 上运行。在 Q8_0 下约需 50GB。

    Mixtral 8x22B 在 Q4_K_M 下约需 80GB,适合 A100 80GB 或多 GPU 配置。在 Q8_0 下需求增长至约 150GB,通常需要 2-4 块高 VRAM GPU 或大内存 CPU 推理。

    Mixtral 的推理速度相对于模型质量非常出色,因为每个 token 仅计算活跃专家权重。在 A100 80GB 上,Mixtral 8x7B 通常每秒可生成 40-60 个 token,与运行 13B 稠密模型相当。在现代硬件上使用 Q4_K_M 的 CPU 推理(例如 M2 Ultra 或 Threadripper)通常每秒可达 15-25 个 token。

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.