vs

    DPO vs RLHF

    2026 年 DPO 与 RLHF 的 LLM 对齐对比。了解直接偏好优化和基于人类反馈的强化学习之间的权衡。

    Overview

    RLHF 和 DPO 都是将语言模型与人类偏好对齐的方法——使模型更有帮助、更安全、行为更得体。RLHF 是最初的方法,因创建 ChatGPT 而闻名。这是一个多阶段过程:首先收集人类偏好数据(模型输出的比较)。其次训练一个单独的奖励模型来预测人类偏好哪些输出。第三,使用 PPO(近端策略优化)微调语言模型以最大化奖励模型的分数。它有效,但流程复杂、训练不稳定且成本高昂。

    DPO(直接偏好优化)于 2023 年作为更简单的替代方案提出。关键洞察是您可以完全跳过奖励模型。DPO 重新表述了对齐目标,使语言模型本身直接从偏好对中学习,使用修改的交叉熵损失来增加偏好输出的概率并降低被拒绝输出的概率。无需奖励模型、无需 PPO、无需强化学习循环。仅需在偏好数据上进行单个训练步骤。

    DPO 对该领域的影响是巨大的。它使对齐对于无法实现或稳定完整 RLHF 流程的团队变得可行。研究表明 DPO 在大多数基准测试中达到与 RLHF 相当的对齐质量,其简单性使其成为许多开源模型训练流程的默认选择。然而,RLHF 在前沿仍具优势——特别是对于最大的模型和最苛刻的对齐目标。

    Feature Comparison

    FeatureDPORLHF
    流程复杂度单个训练步骤多阶段(奖励模型 + PPO)
    需要奖励模型
    训练稳定性稳定可能不稳定(PPO)
    计算成本较低较高(2-3 个模型)
    对齐质量在大多数任务上相当在前沿略优
    实现难度中等
    在线学习仅离线在线(PPO 循环)
    数据需求偏好对偏好对及更多
    工具支持TRL、Axolotl 等专门的库
    前沿实验室使用越来越多主要方法

    Strengths

    DPO

    • 大幅简化的流程——在偏好对上进行单步训练,无需奖励模型或 PPO 循环
    • 更稳定的训练——避免了 RLHF 中 PPO 常见的训练不稳定性
    • 更低的计算成本——训练一个模型,而非同时维护两到三个模型
    • 更易实现——标准微调框架只需最少的额外代码即可支持 DPO
    • 广泛的工具支持——TRL、Axolotl 和大多数微调库都包含 DPO 训练器
    • 在大多数标准基准和实际任务上达到与 RLHF 相当的对齐质量

    RLHF

    • 通过 PPO 循环的在线学习允许模型生成新输出并从奖励模型反馈中迭代学习
    • 更灵活的奖励建模——奖励模型可以捕获复杂的多维人类偏好
    • 在前沿规模得到验证——ChatGPT、Claude 和其他行业领先对齐模型背后的方法
    • 奖励模型可以在多次对齐运行和模型版本中复用
    • 对超越简单成对偏好的复杂对齐目标有更好的理论框架
    • 可以通过在线探索持续改进,发现人类偏好但不在原始数据集中的输出

    Which Should You Choose?

    您正在对齐开源模型并需要一种实用、可实现的方法DPO

    DPO 的简单性使其对没有深厚 RLHF 专业知识的团队来说很实用。在偏好数据上的单步训练比完整 RLHF 流程要容易得多。

    您正在训练前沿模型,最大化对齐质量可以证明任何复杂性的合理性RLHF

    RLHF 的在线学习循环和灵活的奖励建模可以在前沿实现略微更好的对齐。对于投入数百万进行模型训练的组织来说,这一优势很重要。

    您的对齐训练计算预算有限DPO

    DPO 在偏好数据上训练单个模型。RLHF 需要与策略模型一起训练和运行奖励模型,大约需要两到三倍的计算资源。

    您需要稳定、可重现的对齐训练,避免 PPO 的不稳定性DPO

    DPO 使用简单的损失函数,可靠地收敛。RLHF 中的 PPO 出了名地难调,奖励黑客攻击、模式崩溃和训练发散是常见的失败模式。

    您希望模型发现偏好数据集之外的新高质量输出RLHF

    RLHF 的在线 PPO 循环生成新输出并使用奖励模型评估它们,允许模型探索并找到人类偏好但不在原始数据中的回复。

    Verdict

    DPO 已成为开源社区和大多数实际对齐任务的默认对齐方法。其简单性——在偏好数据上无需奖励模型或 PPO 循环的单步训练——使其可达、稳定且经济高效。对于使用有限计算预算对齐开源模型的团队,DPO 以大幅降低的复杂性实现了与 RLHF 相当的结果。工具生态系统已围绕 DPO 成熟,大多数微调框架原生支持它。

    RLHF 在前沿仍然重要。在线学习能力、灵活的奖励建模和超越训练数据的探索能力使其在推动模型质量边界时具有优势。对于像 OpenAI 和 Anthropic 这样投入数亿进行模型训练的公司,RLHF 的边际改进证明了其复杂性的合理性。对于其他人来说,DPO 是实用的选择。

    How Ertas Fits In

    Ertas Studio 专注于监督微调(SFT),而非对齐训练,这通常是训练流程中 DPO 或 RLHF 之前的步骤。对于希望先在任务数据上微调模型然后再应用对齐的团队,Ertas 处理 SFT 步骤。对齐后的模型可以导出为 GGUF 格式用于本地部署。对于为 DPO 训练创建偏好数据的团队,Ertas Data Suite 可以帮助准备和策展偏好对。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.