What is RLHF（基于人类反馈的强化学习）?

一种使用人类偏好判断来微调语言模型的训练技术，使模型输出与人类价值观和期望对齐。

Definition

基于人类反馈的强化学习（RLHF）是一个多阶段训练过程，将语言模型的行为与人类偏好对齐。与在正确的输入-输出对上训练的标准监督微调不同，RLHF 训练模型理解人类更偏好哪些输出，捕获诸如有用性、诚实性和无害性等难以在显式标签中编码的细微品质。

RLHF 过程包含三个阶段。首先，使用高质量示范数据对基础模型进行监督学习微调（SFT）。其次，在人类比较数据上训练奖励模型——标注者看到同一提示的两个或多个模型输出并按质量排名，一个单独的神经网络学习预测这些偏好。第三，使用强化学习算法（通常是近端策略优化 PPO）进一步微调 SFT 模型，该算法最大化奖励模型的分数，同时通过 KL 散度惩罚保持接近 SFT 模型的行为。

RLHF 是 ChatGPT 发布背后的关键创新，至今仍是对齐研究的基石。它将原始语言模型——仅优化预测下一个 token——转变为遵循指令、拒绝有害请求、承认不确定性并产生人类认为真正有帮助的响应的助手。

Why It Matters

预训练语言模型强大但未对齐——它们会欣然生成有毒内容、自信地陈述虚假信息，或忽略用户指令而倾向于统计上可能的续写。RLHF 通过教导模型优化人类满意度而非原始文本预测概率来弥合这一对齐差距。

对于企业部署，RLHF 至关重要，因为它塑造了决定用户信任和采用的模型行为定性方面。一个事实准确但态度生硬的模型，或一个有帮助但偶尔产生有毒内容的模型，都会在面向客户的应用中失败。RLHF 实现了对这些行为维度的精细控制，使部署能够一致地满足生产使用所需的品牌和安全标准的模型成为可能。

How It Works

RLHF 核心的奖励模型通常是与语言模型架构相似的 Transformer，训练为回归模型，接受提示-响应对并输出标量质量分数。训练数据由比较对组成：对于同一提示，标注者看到两个模型响应并选择更好的一个。奖励模型学习为被偏好的响应分配更高的分数。

在强化学习阶段，语言模型为一批提示生成响应，奖励模型对每个响应评分，PPO 更新语言模型的权重以增加高分响应的概率。KL 惩罚防止模型偏离其 SFT 起点太远，这会导致模式坍缩——只生成一小组高奖励但重复的响应。在奖励最大化和行为多样性之间的平衡是 RLHF 的核心工程挑战。

Example Use Case

一家公司在微调客户服务模型时使用 RLHF 来确保回答不仅准确，而且富有同理心并符合品牌调性。人类标注者比较模型对客户投诉的成对回复，一致偏好在提供解决方案之前先认同客户不满的回复。经过 RLHF 训练后，模型自然地采用了这种富有同理心的回答模式，客户满意度评分相比仅使用 SFT 的版本提高了 30%。