Fine-Tune Zephyr with Ertas

    HuggingFace 基於 Mistral 7B 使用蒸餾直接偏好最佳化(dDPO)微調的 70 億參數模型,展示了對齊技術無需人類偏好資料也能產生高效的聊天模型。

    7BHuggingFace

    Overview

    Zephyr 是由 HuggingFace H4 團隊開發的指令微調語言模型,基於 Mistral 7B 構建。於 2023 年 10 月發布,Zephyr 展示了對齊方法論的突破:使用以 AI 生成的偏好資料進行蒸餾直接偏好最佳化(dDPO),而非昂貴的人類標註。產生的模型達到了與更大、訓練成本更高的模型相競爭的聊天品質。

    Zephyr 的訓練管線由三個階段組成:首先,在 UltraChat 資料集(約 200K 由 GPT-4 生成的合成對話)上進行監督微調(SFT);其次,使用 GPT-4 對回應對進行評分以生成偏好資料;第三,使用 AI 生成的偏好進行直接偏好最佳化(DPO)。這種完全合成的訓練管線消除了對人類標註員的需求,大幅降低了產生對齊聊天模型的成本和時間。

    Zephyr 7B Beta(最廣泛使用的變體)是首批在 Chatbot Arena 上達到 1000 以上 Elo 評級的 7B 模型,超越了包括 Llama 2 70B Chat 在內的許多更大模型。這一結果證明了對齊品質更多取決於訓練方法論而非原始模型規格。

    模型以 MIT 授權發布,繼承了 Mistral 7B 的架構:滑動視窗注意力、分組查詢注意力和 32K token 上下文視窗。Zephyr 已成為 dDPO 訓練方法論的參考實作,並影響了許多後續的對齊研究專案。

    Key Features

    蒸餾直接偏好最佳化(dDPO)是 Zephyr 最重要的貢獻。傳統的 RLHF 需要昂貴的人類偏好資料——由人類標註員評級的模型回應對。dDPO 用更強的 AI 模型(GPT-4)取代人類標註員,對回應對進行評分以生成偏好資料。然後使用這些 AI 生成的偏好資料進行 DPO 訓練,以遠低於人類標註方法成本的一小部分產生相當的對齊品質。

    完全合成的訓練管線(UltraChat 用於 SFT + AI 生成的偏好用於 DPO)是可重現和可擴展的。研究人員和從業者可以使用開源工具複製整個 Zephyr 訓練過程,該方法可以應用於任何基礎模型。HuggingFace 發布了完整的訓練程式碼、資料和方法,使社群能夠從任意基礎模型建立 Zephyr 風格的對齊模型。

    Zephyr 在有用性指標上展現了特別強的效能——它傾向於提供詳細、結構良好的回應,而非過度謹慎或簡短的答案。這歸因於偏好資料選擇過程偏向全面和有幫助的回應。模型在多輪對話中也表現良好,維持連貫性並在先前上下文基礎上進行建設。

    Fine-Tuning with Ertas

    Zephyr 是 Ertas Studio 中微調的出色起點,因為它已預先對齊為有幫助的對話。由於基礎模型已經用 DPO 進行了指令微調,在 Ertas Studio 中的進一步微調是將 Zephyr 有幫助的溝通風格適應到您的特定領域。QLoRA 微調僅需 8-10GB VRAM,與 Mistral 7B 相同,可在 RTX 3080 10GB 或 RTX 4070 Ti 12GB 等消費級 GPU 上執行。

    模型對相對小的微調資料集反應良好,因為對齊工作已經完成。僅 1,000-5,000 個高品質特定領域範例就能產生一個結合了 Zephyr 通用有用性和深度領域知識的專用助手。這使 Zephyr 非常適合快速原型化特定領域的聊天機器人。

    微調後,Ertas Studio 匯出為 GGUF 格式。Zephyr 的 7B 規格產生緊湊的 GGUF 檔案——在 Q4_K_M 下約 4.4GB——幾乎可在任何現代硬體上執行。透過 Ollama 或 llama.cpp 部署即可立即使用。已有的對齊品質與小模型規格的結合使 Zephyr 成為達到生產就緒自訂聊天機器人的最具成本效益的路徑之一。

    Use Cases

    Zephyr 非常適合有用性和回應品質重要但資源有限的對話式 AI 應用。客戶支援聊天機器人、內部知識助手、教育輔導員和互動式幫助系統都受益於 Zephyr 有幫助的對齊和小模型規格的結合。模型傾向於提供詳細、結構良好的回應,這對解釋性和教育性應用特別有價值。

    模型作為探索對齊技術的出色研究和開發平台。研究人員可以研究 DPO 訓練的效果、嘗試不同的偏好資料來源,以及調查對齊方法論與模型行為之間的關係。完全可重現的訓練管線使受控實驗變得簡單直接。

    Zephyr 作為更大 AI 系統中的組件也很有價值。其快速的推論速度和小巧的規格使其適合用作對話前端、RAG 管線中的查詢重寫器或回應品質評估器。許多系統使用 Zephyr 作為處理使用者互動的輕量級對話層,同時將複雜查詢路由到更大的後端模型。

    Hardware Requirements

    Zephyr 7B 與其基礎模型 Mistral 7B 的硬體需求相同。在 Q4_K_M 量化下需要約 4.4GB RAM,可在配備 8GB RAM 的筆記型電腦、配備 6GB 以上 VRAM 的 GPU 和搭載 8GB 統一記憶體的 Apple Silicon Mac 上執行。在 Q8_0 下約 7.7GB。完整 FP16 需要約 14.5GB VRAM。

    推論速度由於小模型規格和 Mistral 的高效架構而出色。在 RTX 4090 上,使用 Q4_K_M 預計每秒 50-70 個 token。在搭載 16GB 的 Apple M2 上,預計每秒 15-25 個 token。現代硬體上的 CPU 推論每秒 5-12 個 token,使 Zephyr 即使沒有專用 GPU 也可使用。

    在 Ertas Studio 中使用 QLoRA 進行微調,8-10GB VRAM 即足夠(RTX 3080、RTX 4070 Ti 或同等級)。完整 LoRA 需要約 16-18GB。訓練速度快——5,000 個範例的典型微調執行在單張消費級 GPU 上 30-90 分鐘完成。

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.