vs

    DPO vs RLHF

    比較 2026 年用於 LLM 對齊的 DPO 和 RLHF。了解直接偏好最佳化和基於人類回饋的強化學習之間的取捨。

    Overview

    RLHF 和 DPO 都是將語言模型與人類偏好對齊的方法——使其更有幫助、更安全、更規範。RLHF 是最初的方法,因創建 ChatGPT 而聞名。它是一個多階段過程:首先,收集人類偏好資料(模型輸出的比較)。其次,訓練一個單獨的獎勵模型來預測人類偏好的輸出。第三,使用 PPO(近端策略最佳化)微調語言模型以最大化獎勵模型的分數。它有效,但管道複雜、訓練過程不穩定且成本高昂。

    DPO(直接偏好最佳化)於 2023 年作為更簡單的替代方案被提出。關鍵洞察是您可以完全跳過獎勵模型。DPO 重新表述了對齊目標,使語言模型本身直接從偏好對中學習,使用修改後的交叉熵損失函數來增加偏好輸出的機率並減少被拒絕輸出的機率。不需要獎勵模型,不需要 PPO,不需要強化學習循環。只需在偏好資料上進行單一訓練步驟。

    DPO 對該領域的影響是巨大的。它使那些無法實現或穩定完整 RLHF 管道的團隊也能進行對齊。研究表明,DPO 在大多數基準測試中達到了與 RLHF 相當的對齊品質,其簡單性使其成為許多開源模型訓練管道的預設選擇。然而,RLHF 在前沿仍然具有優勢——特別是對於最大的模型和最嚴格的對齊目標。

    Feature Comparison

    FeatureDPORLHF
    管道複雜度單一訓練步驟多階段(RM + PPO)
    需要獎勵模型
    訓練穩定性穩定可能不穩定(PPO)
    運算成本較低較高(2-3 個模型)
    對齊品質大多數任務上可比在前沿略好
    實現難度中等
    線上學習僅離線線上(PPO 循環)
    資料要求偏好對偏好對 + 更多
    工具支援TRL、Axolotl 等專門的程式庫
    前沿實驗室使用越來越多主要方法

    Strengths

    DPO

    • 大幅簡化的管道——在偏好對上進行單一訓練步驟,無需獎勵模型或 PPO 循環
    • 更穩定的訓練——避免了 RLHF 中 PPO 常見的訓練不穩定性
    • 更低的運算成本——訓練一個模型而非同時維護兩到三個模型
    • 更容易實現——標準微調框架只需最少額外程式碼即可支援 DPO
    • 廣泛的工具支援——TRL、Axolotl 和大多數微調程式庫都包含 DPO 訓練器
    • 在大多數標準基準測試和實際任務上達到與 RLHF 相當的對齊品質

    RLHF

    • 透過 PPO 循環的線上學習允許模型生成新輸出並從獎勵模型回饋中迭代學習
    • 更靈活的獎勵建模——獎勵模型可以捕捉複雜的多維人類偏好
    • 在前沿規模上經過驗證——ChatGPT、Claude 和其他業界領先的對齊模型背後的方法
    • 獎勵模型可以在多次對齊運行和模型版本之間重複使用
    • 為超越簡單成對偏好的複雜對齊目標提供更好的理論框架
    • 可以透過線上探索持續改進,發現人類偏好但不在原始資料集中的輸出

    Which Should You Choose?

    您正在對齊開源模型,需要一種實用、可實現的方法DPO

    DPO 的簡單性使其對沒有深厚 RLHF 專業知識的團隊來說是切實可行的。在偏好資料上進行單一訓練步驟比完整的 RLHF 管道要容易實現和除錯得多。

    您正在訓練前沿模型,最大化對齊品質可以證明任何複雜性的合理性RLHF

    RLHF 的線上學習循環和靈活的獎勵建模可以在前沿達到略好的對齊效果。對於投資數百萬美元進行模型訓練的組織來說,這種優勢很重要。

    您的對齊訓練運算預算有限DPO

    DPO 在偏好資料上訓練單一模型。RLHF 需要在策略模型旁邊訓練和運行獎勵模型,大約會使運算需求增加兩到三倍。

    您需要穩定、可重現的對齊訓練,避免 PPO 的不穩定性DPO

    DPO 使用直接的損失函數,收斂可靠。RLHF 中的 PPO 眾所周知地棘手,獎勵駭入、模式崩潰和訓練發散都是常見的失敗模式。

    您希望模型發現偏好資料集之外的新高品質輸出RLHF

    RLHF 的線上 PPO 循環生成新輸出並用獎勵模型評估它們,允許模型探索和找到人類偏好但不在原始資料中的回應。

    Verdict

    DPO 已成為開源社群和大多數實際對齊任務的預設對齊方法。其簡單性——在偏好資料上進行單一訓練步驟,無需獎勵模型或 PPO 循環——使其易用、穩定且具有成本效益。對於在有限運算預算下對齊開源模型的團隊,DPO 以大幅降低的複雜性達到了與 RLHF 相當的結果。工具生態系統已圍繞 DPO 成熟,大多數微調框架原生支援它。

    RLHF 在前沿仍然很重要。線上學習能力、靈活的獎勵建模和超越訓練資料探索的能力賦予了它在您推動模型品質邊界時重要的優勢,但需要大量預算。對於像 OpenAI 和 Anthropic 這樣投資數億美元進行模型訓練的公司,RLHF 帶來的邊際改進證明了其複雜性的合理性。對於其他所有人,DPO 是務實的選擇。

    How Ertas Fits In

    Ertas Studio 專注於監督式微調(SFT)而非對齊訓練,這通常是訓練管道中 DPO 或 RLHF 之前的步驟。對於想要先在任務資料上微調模型然後再應用對齊的團隊,Ertas 處理 SFT 步驟。對齊後的模型隨後可以匯出為 GGUF 進行本地部署。對於為 DPO 訓練創建偏好資料的團隊,Ertas Data Suite 可以幫助準備和策劃偏好對。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.