What is RLHF（基於人類回饋的強化學習）?

使用人類偏好判斷微調語言模型，使輸出與人類價值觀對齊的訓練技術。

Definition

基於人類回饋的強化學習（RLHF）是一個多階段訓練過程，將語言模型行為與人類偏好對齊。與在正確的輸入-輸出對上訓練的標準監督式微調不同，RLHF 訓練模型理解人類偏好哪些輸出，捕捉難以用明確標籤編碼的細微品質，如有用性、誠實性和無害性。

RLHF 過程由三個階段組成。首先，基礎模型透過監督式學習在高品質的示範上進行微調（監督式微調或 SFT）。其次，在人類比較資料上訓練一個獎勵模型——標注員被展示同一提示的兩個或多個模型輸出並按品質排名，一個獨立的神經網路學習預測這些偏好。第三，SFT 模型使用強化學習演算法（通常是近端策略優化 PPO）進一步微調，在最大化獎勵模型分數的同時透過 KL 散度懲罰保持接近 SFT 模型的行為。

RLHF 是 ChatGPT 推出背後的關鍵創新，並仍然是對齊研究的基石。它將原始語言模型——僅針對預測下一個 token 進行優化——轉變為遵循指令、拒絕有害請求、承認不確定性並產生人類真正覺得有用的回應的助手。

Why It Matters

預訓練語言模型強大但未對齊——它們會欣然生成有毒內容、自信地陳述謬誤，或忽略使用者指令而偏向統計上可能的接續。RLHF 透過教導模型針對人類滿意度而非原始文字預測機率進行優化來彌合這種對齊差距。

對於企業部署，RLHF 至關重要，因為它塑造了模型行為的定性方面，這些方面決定了使用者信任和採用度。一個事實準確但態度粗暴，或有用但偶爾有毒的模型在面向客戶的應用中會失敗。RLHF 實現了對這些行為維度的精細控制，使得部署能夠一致地滿足生產使用所需的品牌和安全標準的模型成為可能。

How It Works

RLHF 核心的獎勵模型通常是與語言模型架構相似的 Transformer，作為回歸模型訓練，接受提示-回應對並輸出純量品質分數。訓練資料由比較對組成：對於同一提示，標注員看到兩個模型回應並選擇較好的一個。獎勵模型學習為被偏好的回應分配更高的分數。

在 RL 階段，語言模型對一批提示生成回應，獎勵模型為每個回應評分，PPO 更新語言模型的權重以增加高分回應的機率。KL 懲罰防止模型偏離其 SFT 起點太遠，否則會導致模式崩潰——只生成一組狹窄的高獎勵但重複的回應。獎勵最大化和行為多樣性之間的平衡是 RLHF 的核心工程挑戰。

Example Use Case

一家公司微調客服模型時使用 RLHF 確保回應不僅準確而且有同理心且符合品牌風格。人類標注員比較客戶投訴的模型回應對，一致偏好在提供解決方案前先承認客戶挫折感的回應。RLHF 訓練後，模型自然採用這種有同理心的回應模式，與僅有 SFT 的版本相比，客戶滿意度分數提高了 30%。

Key Takeaways

RLHF 透過三階段過程將模型行為與人類偏好對齊：SFT、獎勵建模和 RL 優化。
它捕捉了難以用監督式標籤編碼的有用性和安全性等細微品質。
獎勵模型從比較資料中學習預測人類偏好。
KL 散度懲罰防止 RL 訓練期間的模式崩潰。
RLHF 是將基礎 LLM 轉變為有用 AI 助手的關鍵創新。

How Ertas Helps

Ertas Studio 支援 RLHF 風格的訓練工作流程，允許使用者透過比較介面收集人類偏好資料並訓練與獎勵對齊的模型。在 Ertas Data Suite 中準備的資料可以結構化為比較對以用於獎勵模型訓練。

Related Resources

Glossary

DPO (Direct Preference Optimization)

Fine-Tuning

Guardrails

Instruction Tuning

Model Evaluation

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →