DPO 與偏好資料：在本地環境準備對齊資料集

直接偏好優化（DPO）是目前企業團隊最實用的對齊技術。它引導模型行為——語氣、準確性、政策合規性、安全性——而無需強化學習來自人類回饋（RLHF）的基礎設施複雜性。無需訓練獎勵模型，無需穩定 PPO 訓練迴路。只需標記為「選擇」和「拒絕」的回應配對，以及單次微調過程。

企業面臨的問題在於資料。偏好資料集編碼了組織認為「好」的回應與「差」的回應之間的區別。這包括合規敏感決策、專有推理模式和內部品質標準。將此資料發送給第三方服務進行準備或擴充，會洩露競爭情報並違反資料治理政策。

整個 DPO 資料準備工作流程必須在本地環境中運行。以下是如何實現的，從原始輸入到可匯出的 JSONL。

DPO 是什麼，為何它對企業模型重要

標準微調（SFT）教模型說什麼。DPO 教模型偏好什麼。當你需要一個不只是產生正確答案，而是以正確方式產生答案的模型時——有正確的語氣、正確的詳細程度、正確的說明、以及正確的合規防護欄——這種區別就很重要。

在客戶支援轉錄上訓練的 SFT 模型，將生成看起來像客戶支援轉錄的回應。但它可能生成過於隨意的回應，或承諾公司無法兌現的事情，或跳過必要的披露。DPO 通過向模型展示配對樣本來糾正這些行為：「這個回應是可接受的，這個幾乎相同的回應則不是。」

結果是可測量的。在 SFT 之後增加 DPO 對齊步驟的團隊，通常看到人類偏好評分提升 15% 到 25%，政策違規（違反內部指導方針的回應）減少 30% 到 50%。這些數字來自內部基準測試，而非合成評估。

對受監管行業——金融、醫療、法律——DPO 不是可選的，而是確保模型遵循行業特定溝通規則、披露要求和風險語言標準的機制。

偏好資料集格式

DPO 資料集是三元組的集合：

{
  "prompt": "A customer asks: 'Can I get a refund on my subscription?'",
  "chosen": "I can help with that. Our refund policy allows full refunds within 30 days of purchase. Could you share your order number so I can check your eligibility?",
  "rejected": "Sure, I'll process your refund right away! You should see the money back in your account within 24 hours."
}

「chosen」回應遵循政策——它引用退款政策、要求驗證，且不做任何承諾。「rejected」回應跳過驗證並做出公司可能無法兌現的時間承諾。

兩個回應都是合理的。兩個都很流暢。差別在於行為對齊——這正是 DPO 學習的內容。

格式本身很簡單。難點在於產生足夠多的高品質配對，使選擇與拒絕之間的區別是有意義且一致的。

企業偏好資料的來源

你不需要從頭生成偏好資料。大多數企業都坐擁豐富的偏好訊號來源，這些來源從未被格式化用於模型訓練。

人類回饋日誌

如果你的組織使用任何 AI 輔助工具——聊天機器人、文件起草助手、代碼補全工具——可能有使用者反應的日誌。按讚／按倒讚、重新生成請求、對 AI 輸出的手動編輯以及投訴工單，都編碼了偏好資料。一個編輯 AI 生成電子郵件的使用者，正在向你展示「拒絕」（原版）和「選擇」（編輯版）的配對。

A/B 測試結果

如果你進行過比較模型輸出、提示變體或回應格式的 A/B 測試，獲勝的變體是「selected」，失敗的變體是「rejected」。A/B 測試資料特別有價值，因為它具有統計顯著性——你知道偏好是真實的，而非雜訊。

品質審閱的模型輸出

許多企業有品質審閱流程，高級員工審閱和評分 AI 輸出。醫療機構審閱 AI 生成的臨床摘要、律師事務所審閱 AI 起草的合約條款、銀行審閱 AI 生成的風險評估——所有這些都產生分等级的輸出，直接對應到偏好配對。

專家糾錯

當領域專家糾正 AI 輸出時，你得到一個自然的偏好配對。原始輸出是「rejected」，糾正版本是「chosen」。這是最高品質的偏好資料，因為糾錯是有針對性的，專家確切了解為何原版是錯誤的。

內部風格指南和合規規則

你的組織的溝通指南、合規模板和品牌聲音文件，定義了「好」的樣子。生成一個遵循指南的回應和一個違反特定規則的回應的配對。這些是系統性的，可以大規模產生。

準備管道

第一步：收集提示-回應配對

從上述來源聚合原始資料。對於每個來源，提取提示（輸入或問題）和至少兩個候選回應。在此階段，不要擔心格式——專注於完整性。

目標：1,000 到 2,000 個原始提示-回應集。過濾和格式化後，預計保留 50% 到 70% 作為可用的 DPO 配對。

第二步：領域專家排名或選擇偏好回應

這是需要人類判斷且無法自動化的步驟。向領域專家呈現每個提示及其候選回應，並要求他們選擇首選回應。

仔細構建任務：

同時顯示提示和所有候選回應
要求標注者選擇最佳回應和最差回應（如果存在兩個以上候選）
要求對選擇進行簡短說明（一句話）
提供明確的指導方針：「選擇最符合我們內部政策、使用適當語氣並提供準確資訊的回應」

當介面設計良好時，領域專家每小時可評估 40 到 60 個配對。對於 1,000 個配對，預算 20 到 25 小時的專家時間——通常在 2 到 5 週內分散於 3 到 5 位專家。

第三步：格式化為 DPO 配對

將排名輸出轉換為標準 DPO 三元組格式：prompt、chosen、rejected。如果專家對兩個以上的回應進行了排名，從同一提示創建多個配對（排名最高的回應與每個排名較低的回應之間）。

驗證格式：確保沒有空欄位、沒有截斷的回應，以及一致的編碼。刪除選擇和拒絕回應幾乎相同的樣本——模型無法從差異可以忽略不計的配對中學習。

第四步：用標注者間一致性進行品質檢查

如果多位專家標注了相同的樣本，計算標注者間一致性。對於偏好資料，Cohen's kappa 高於 0.7 表示強一致性。低於 0.5，指導方針是模糊的，需要修訂。

分歧是有啟發性的。如果兩位專家對哪個回應更受歡迎存在分歧，請調查原因。常見原因：指導方針模糊、政策未涵蓋的邊緣案例，或專家意見的真正差異。通過討論解決分歧，而非多數表決——目標是闡明標準，而非掩蓋不一致性。

第五步：匯出

以你的訓練框架所需的 JSONL 格式匯出已驗證的配對。對於大多數 DPO 實現（TRL、Axolotl、LLaMA-Factory），格式為：

{"prompt": "...", "chosen": "...", "rejected": "..."}

分成訓練集（85%）和驗證集（15%）。驗證集用於監控 DPO 訓練損失——如果驗證損失偏離訓練損失，你就是在對偏好資料過度擬合。

為何這必須在本地環境進行

偏好資料可以說比它所衍生的原始訓練資料更敏感。原因如下。

選擇／拒絕配對揭示了組織認為「好」的標準——其品質標準、合規閾值、風險承受能力和溝通規範。競爭對手如果能存取你的偏好資料，就確切知道你的組織如何做決策以及它優先考慮什麼。

「拒絕」的回應特別能說明問題。它們顯示了組織認為不可接受的內容——失敗模式、合規違規、損害品牌的回應。這是針對組織 AI 系統的對抗性攻擊手冊。

在受監管行業，偏好資料通常編碼了合規決策。金融機構的偏好資料顯示了它如何解讀監管指導方針——哪些回應通過合規審閱，哪些不通過。這是競爭對手花費數百萬開發的專有監管解讀。

任何雲端服務，無論其安全保障多麼強大，都不應存取這些資料。準備管道在本地基礎設施上運行，使用本地 LLM 進行擴充，並匯出到本地儲存。

使用本地 LLM 生成候選回應

領域專家不應該從頭撰寫回應。相反，使用本地 LLM 為每個提示生成 3 到 5 個候選回應，然後讓專家選擇最佳和最差的。

使用能力強的指令遵循模型運行 Ollama。對於每個提示，以不同溫度（0.3、0.7、1.0）生成回應，以獲得從保守到創意的範圍。還要以不同的系統提示生成回應——一個強調簡潔，一個強調全面，一個故意有缺陷（用於拒絕樣本）。

這種方法從 1,000 個提示產生 3,000 到 5,000 個候選回應。專家審閱時間從「撰寫回應」降為「選擇和比較」，將工作量大約減半。

規模需求

DPO 相對於 RLHF 效率較高，但仍需要有意義的偏好配對量。

最低可行： 500 個配對。足以在特定行為上看到方向性改善（例如減少過於隨意的語氣）。不足以實現全面對齊。

建議： 2,000 到 3,000 個配對。涵蓋主要行為維度——語氣、準確性、合規性、披露和安全性。這是大多數企業部署的最佳平衡點。

全面： 5,000 個以上的配對。當模型服務於具有不同需求的多個使用者群體時需要（例如同時服務客戶支援和內部分析師工作流程的模型）。

低於 500 個配對，DPO 訓練訊號太弱，無法產生一致的行為變化。超過 5,000 個，你需要驗證配對是否不矛盾——衝突的偏好訊號會降低模型性能。

常見錯誤

明顯的配對： 如果選擇的回應在每個指標上都明顯更好，模型什麼都學不到。最有效的配對是兩個回應都合理，但因為特定原因而偏好其中一個的情況。微妙的區別產生最強的對齊訊號。

不一致的標準： 如果專家 A 偏好簡短回應而專家 B 偏好詳細回應，結果資料集包含矛盾訊號。在標注開始之前，而非之後，就指導方針達成一致。

忽視分佈： 如果你的 80% 的配對涉及語氣，只有 5% 涉及準確性，模型在語氣上會強烈對齊，但在準確性上很弱。在你關心的行為維度上平衡配對。

過時資料： 政策改變，法規更新，品牌聲音演化。12 個月前的偏好資料集可能編碼了過時的標準。計劃每季度更新。

DPO 對齊是一個資料品質問題，而非資料數量問題。一千個精心製作的偏好配對將超越一萬個草率的配對。在專家審閱上投入時間，對齊結果就會隨之而來。

Your data is the bottleneck — not your models.

Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

Book a Discovery Call Learn about Ertas Data Suite →