Fine-Tune Zephyr with Ertas
HuggingFace 基于 Mistral 7B 使用蒸馏直接偏好优化(dDPO)微调的 70 亿参数模型,证明了对齐技术可以在无需人类偏好数据的情况下产生高度优秀的聊天模型。
Overview
Zephyr 是由 HuggingFace H4 团队开发的指令调优语言模型,基于 Mistral 7B 构建。Zephyr 于 2023 年 10 月发布,展示了对齐方法论的突破:使用 AI 生成的偏好数据而非昂贵的人工标注进行蒸馏直接偏好优化(dDPO)。由此产生的模型达到了与更大且 训练成本更高的模型相当的聊天质量。
Zephyr 的训练管道包含三个阶段:首先,在 UltraChat 数据集(约 200K 由 GPT-4 生成的合成对话)上进行监督微调(SFT);其次,使用 GPT-4 对回复对进行评分来生成偏好数据;第三,使用 AI 生成的偏好进行直接偏好优化(DPO)。这个完全合成的训练管道消除了对人工标注员的需求,大幅降低了产生对齐聊天模型所需的成本和时间。
Zephyr 7B Beta,最广泛使用的变体,是首个在 Chatbot Arena 上达到 1000 以上 Elo 评分的 7B 模型,超越了包括 Llama 2 70B Chat 在内的许多更大模型。这一结果证明了对齐质量更多取决于训练方法而非原始模型大小。
该模型在 MIT 许可下发布,继承了 Mistral 7B 的架构:滑动窗口注意力、分组查询注意力和 32K token 的上下文窗口。Zephyr 已成为 dDPO 训练方法论的参考实现,并影响了众多后续的对齐研究项目。
Key Features
蒸馏直接偏好优化(dDPO)是 Zephyr 最重要的贡献。传统的 RLHF 需要昂贵的人类偏好数据——由人工标注员评分的模型回复对。dDPO 用更强大的 AI 模型(GPT-4)替代人工标注员,对回复对进行评分以生成偏好数据。然后使用这些 AI 生成的偏好数据进行 DPO 训练,以远低于人工标注方法的成本产生相当的对齐质量。
完全合成的训练管道(用于 SFT 的 UltraChat + 用于 DPO 的 AI 生成偏好)是可复现和可扩展的。研究人员和从业者可以使用开源工具复现整个 Zephyr 训练过程,该方法可应用于任何基础模型。HuggingFace 发布了完整的训练代码、数据和方案,使社区能够从任意基础模型创建 Zephyr 风格的对齐模型。
Zephyr 在有用性指标上表现特别出色——它倾向于提供详细、结构良好的回复,而非过于谨慎或简短的答案。这归因于偏好数据选择过程,该过程偏好全面且有帮助的回复。模型在多轮对话中也表现出色,保持连贯性并在先前上下文基础上构建。
Fine-Tuning with Ertas
Zephyr 是 Ertas Studio 中微调的优秀起点,因为它已经预对齐为有帮助的对话。由于基础模型已经过 DPO 指令调优,在 Ertas Studio 中的进一步微调是将 Zephyr 的有帮助沟通风格适配到您特定的领域。QLoRA 微调仅需 8-10GB VRAM,与 Mistral 7B 相同,可在 RTX 3080 10GB 或 RTX 4070 Ti 12GB 等消费级 GPU 上运行。
该模型对较小的微调数据集反应良好,因为对齐工作已经完成。仅 1,000-5,000 个高质量特定领域示例即可产生结合 Zephyr 通用有帮助性与深度领域知识的专业助手。这使 Zephyr 非常适合快速原型化特定领域的聊天机器人。
微调完成后,Ertas Studio 导出为 GGUF 格式。Zephyr 的 7B 大小产生紧凑的 GGUF 文件——Q4_K_M 下约 4.4GB——可在几乎任何现代硬件上运行。通过 Ollama 或 llama.cpp 部署即可立即使用。预有的对齐质量与小模型大小的结合使 Zephyr 成为通往生产就绪定制聊天机器人的最具性价比路径之一。
Use Cases
Zephyr 非常适合有用性和回复质量重要但资源有限的对话式 AI 应用。客户支持聊天机器人、内部知识助手、教育辅导和交互式帮助系统都受益于 Zephyr 有帮助的对齐和小巧模型尺寸的结合。模型提供详细、结构良好回复的倾向对解释性和教育性应用特别有价值。
该模型作为探索对齐技术的出色研究和开发平台。研究人员可以研究 DPO 训练的效果、实验不同的偏好数据来源,以及调查对齐方法论与模型行为之间的关系。完全可复现的训练管道使受控实验变得简单。
Zephyr 还可作为更大 AI 系统中的组件。其快速的推理速度和小巧尺寸使其适合用作对话前端、RAG 管道中的查询重写器或回复质量评估器。许多系统使用 Zephyr 作为处理用户交互的轻量级对话层,同时将复杂查询路由到更大的后端模型。
Hardware Requirements
Zephyr 7B 的硬件需求与其基础模型 Mistral 7B 相同。在 Q4_K_M 量化下约需 4.4GB 内存,可在配备 8GB 内存的笔记本电脑、配备 6GB 以上 VRAM 的 GPU 和配备 8GB 统一内存的 Apple Silicon Mac 上运行。在 Q8_0 下约需 7.7GB。全精度 FP16 约需 14.5GB VRAM。
推理速度出色,得益于小巧的模型尺寸和 Mistral 的高效架构。在 RTX 4090 上 Q4_K_M 下预计每秒 50-70 个 token。在配备 16GB 的 Apple M2 上预计每秒 15-25 个 token。现代硬件上的 CPU 推理每秒可达 5-12 个 token,使 Zephyr 即使在没有专用 GPU 的情况下也可使用。
在 Ertas Studio 中使用 QLoRA 微调需要 8-10GB VRAM(RTX 3080、RTX 4070 Ti 或同等规格)。完整 LoRA 约需 16-18GB。训练速度快 ——在单块消费级 GPU 上处理 5,000 个示例的典型微调运行在 30-90 分钟内完成。
Supported Quantizations
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.