Fine-Tune Zephyr with Ertas

HuggingFace 基於 Mistral 7B 使用蒸餾直接偏好最佳化（dDPO）微調的 70 億參數模型，展示了對齊技術無需人類偏好資料也能產生高效的聊天模型。

7BHuggingFace

Overview

Zephyr 是由 HuggingFace H4 團隊開發的指令微調語言模型，基於 Mistral 7B 構建。於 2023 年 10 月發布，Zephyr 展示了對齊方法論的突破：使用以 AI 生成的偏好資料進行蒸餾直接偏好最佳化（dDPO），而非昂貴的人類標註。產生的模型達到了與更大、訓練成本更高的模型相競爭的聊天品質。

Zephyr 的訓練管線由三個階段組成：首先，在 UltraChat 資料集（約 200K 由 GPT-4 生成的合成對話）上進行監督微調（SFT）；其次，使用 GPT-4 對回應對進行評分以生成偏好資料；第三，使用 AI 生成的偏好進行直接偏好最佳化（DPO）。這種完全合成的訓練管線消除了對人類標註員的需求，大幅降低了產生對齊聊天模型的成本和時間。

Zephyr 7B Beta（最廣泛使用的變體）是首批在 Chatbot Arena 上達到 1000 以上 Elo 評級的 7B 模型，超越了包括 Llama 2 70B Chat 在內的許多更大模型。這一結果證明了對齊品質更多取決於訓練方法論而非原始模型規格。

模型以 MIT 授權發布，繼承了 Mistral 7B 的架構：滑動視窗注意力、分組查詢注意力和 32K token 上下文視窗。Zephyr 已成為 dDPO 訓練方法論的參考實作，並影響了許多後續的對齊研究專案。

Key Features

蒸餾直接偏好最佳化（dDPO）是 Zephyr 最重要的貢獻。傳統的 RLHF 需要昂貴的人類偏好資料——由人類標註員評級的模型回應對。dDPO 用更強的 AI 模型（GPT-4）取代人類標註員，對回應對進行評分以生成偏好資料。然後使用這些 AI 生成的偏好資料進行 DPO 訓練，以遠低於人類標註方法成本的一小部分產生相當的對齊品質。

完全合成的訓練管線（UltraChat 用於 SFT + AI 生成的偏好用於 DPO）是可重現和可擴展的。研究人員和從業者可以使用開源工具複製整個 Zephyr 訓練過程，該方法可以應用於任何基礎模型。HuggingFace 發布了完整的訓練程式碼、資料和方法，使社群能夠從任意基礎模型建立 Zephyr 風格的對齊模型。

Zephyr 在有用性指標上展現了特別強的效能——它傾向於提供詳細、結構良好的回應，而非過度謹慎或簡短的答案。這歸因於偏好資料選擇過程偏向全面和有幫助的回應。模型在多輪對話中也表現良好，維持連貫性並在先前上下文基礎上進行建設。

Fine-Tuning with Ertas

Zephyr 是 Ertas Studio 中微調的出色起點，因為它已預先對齊為有幫助的對話。由於基礎模型已經用 DPO 進行了指令微調，在 Ertas Studio 中的進一步微調是將 Zephyr 有幫助的溝通風格適應到您的特定領域。QLoRA 微調僅需 8-10GB VRAM，與 Mistral 7B 相同，可在 RTX 3080 10GB 或 RTX 4070 Ti 12GB 等消費級 GPU 上執行。

模型對相對小的微調資料集反應良好，因為對齊工作已經完成。僅 1,000-5,000 個高品質特定領域範例就能產生一個結合了 Zephyr 通用有用性和深度領域知識的專用助手。這使 Zephyr 非常適合快速原型化特定領域的聊天機器人。

微調後，Ertas Studio 匯出為 GGUF 格式。Zephyr 的 7B 規格產生緊湊的 GGUF 檔案——在 Q4_K_M 下約 4.4GB——幾乎可在任何現代硬體上執行。透過 Ollama 或 llama.cpp 部署即可立即使用。已有的對齊品質與小模型規格的結合使 Zephyr 成為達到生產就緒自訂聊天機器人的最具成本效益的路徑之一。

Use Cases

Zephyr 非常適合有用性和回應品質重要但資源有限的對話式 AI 應用。客戶支援聊天機器人、內部知識助手、教育輔導員和互動式幫助系統都受益於 Zephyr 有幫助的對齊和小模型規格的結合。模型傾向於提供詳細、結構良好的回應，這對解釋性和教育性應用特別有價值。

模型作為探索對齊技術的出色研究和開發平台。研究人員可以研究 DPO 訓練的效果、嘗試不同的偏好資料來源，以及調查對齊方法論與模型行為之間的關係。完全可重現的訓練管線使受控實驗變得簡單直接。

Zephyr 作為更大 AI 系統中的組件也很有價值。其快速的推論速度和小巧的規格使其適合用作對話前端、RAG 管線中的查詢重寫器或回應品質評估器。許多系統使用 Zephyr 作為處理使用者互動的輕量級對話層，同時將複雜查詢路由到更大的後端模型。

Hardware Requirements

Zephyr 7B 與其基礎模型 Mistral 7B 的硬體需求相同。在 Q4_K_M 量化下需要約 4.4GB RAM，可在配備 8GB RAM 的筆記型電腦、配備 6GB 以上 VRAM 的 GPU 和搭載 8GB 統一記憶體的 Apple Silicon Mac 上執行。在 Q8_0 下約 7.7GB。完整 FP16 需要約 14.5GB VRAM。

推論速度由於小模型規格和 Mistral 的高效架構而出色。在 RTX 4090 上，使用 Q4_K_M 預計每秒 50-70 個 token。在搭載 16GB 的 Apple M2 上，預計每秒 15-25 個 token。現代硬體上的 CPU 推論每秒 5-12 個 token，使 Zephyr 即使沒有專用 GPU 也可使用。

在 Ertas Studio 中使用 QLoRA 進行微調，8-10GB VRAM 即足夠（RTX 3080、RTX 4070 Ti 或同等級）。完整 LoRA 需要約 16-18GB。訓練速度快——5,000 個範例的典型微調執行在單張消費級 GPU 上 30-90 分鐘完成。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →