Back to blog
    DPO 與偏好資料:在本地環境準備對齊資料集
    dpoalignmentdata-preparationon-premisepreference-datasegment:enterprise

    DPO 與偏好資料:在本地環境準備對齊資料集

    DPO 對齊需要選擇/拒絕回應配對。對於擁有敏感資料的企業而言,此準備工作必須在本地環境進行。以下是在無資料外洩的情況下構建偏好資料集的完整工作流程。

    EErtas Team·

    直接偏好優化(DPO)是目前企業團隊最實用的對齊技術。它引導模型行為——語氣、準確性、政策合規性、安全性——而無需強化學習來自人類回饋(RLHF)的基礎設施複雜性。無需訓練獎勵模型,無需穩定 PPO 訓練迴路。只需標記為「選擇」和「拒絕」的回應配對,以及單次微調過程。

    企業面臨的問題在於資料。偏好資料集編碼了組織認為「好」的回應與「差」的回應之間的區別。這包括合規敏感決策、專有推理模式和內部品質標準。將此資料發送給第三方服務進行準備或擴充,會洩露競爭情報並違反資料治理政策。

    整個 DPO 資料準備工作流程必須在本地環境中運行。以下是如何實現的,從原始輸入到可匯出的 JSONL。

    DPO 是什麼,為何它對企業模型重要

    標準微調(SFT)教模型說什麼。DPO 教模型偏好什麼。當你需要一個不只是產生正確答案,而是以正確方式產生答案的模型時——有正確的語氣、正確的詳細程度、正確的說明、以及正確的合規防護欄——這種區別就很重要。

    在客戶支援轉錄上訓練的 SFT 模型,將生成看起來像客戶支援轉錄的回應。但它可能生成過於隨意的回應,或承諾公司無法兌現的事情,或跳過必要的披露。DPO 通過向模型展示配對樣本來糾正這些行為:「這個回應是可接受的,這個幾乎相同的回應則不是。」

    結果是可測量的。在 SFT 之後增加 DPO 對齊步驟的團隊,通常看到人類偏好評分提升 15% 到 25%,政策違規(違反內部指導方針的回應)減少 30% 到 50%。這些數字來自內部基準測試,而非合成評估。

    對受監管行業——金融、醫療、法律——DPO 不是可選的,而是確保模型遵循行業特定溝通規則、披露要求和風險語言標準的機制。

    偏好資料集格式

    DPO 資料集是三元組的集合:

    {
      "prompt": "A customer asks: 'Can I get a refund on my subscription?'",
      "chosen": "I can help with that. Our refund policy allows full refunds within 30 days of purchase. Could you share your order number so I can check your eligibility?",
      "rejected": "Sure, I'll process your refund right away! You should see the money back in your account within 24 hours."
    }

    「chosen」回應遵循政策——它引用退款政策、要求驗證,且不做任何承諾。「rejected」回應跳過驗證並做出公司可能無法兌現的時間承諾。

    兩個回應都是合理的。兩個都很流暢。差別在於行為對齊——這正是 DPO 學習的內容。

    格式本身很簡單。難點在於產生足夠多的高品質配對,使選擇與拒絕之間的區別是有意義且一致的。

    企業偏好資料的來源

    你不需要從頭生成偏好資料。大多數企業都坐擁豐富的偏好訊號來源,這些來源從未被格式化用於模型訓練。

    人類回饋日誌

    如果你的組織使用任何 AI 輔助工具——聊天機器人、文件起草助手、代碼補全工具——可能有使用者反應的日誌。按讚/按倒讚、重新生成請求、對 AI 輸出的手動編輯以及投訴工單,都編碼了偏好資料。一個編輯 AI 生成電子郵件的使用者,正在向你展示「拒絕」(原版)和「選擇」(編輯版)的配對。

    A/B 測試結果

    如果你進行過比較模型輸出、提示變體或回應格式的 A/B 測試,獲勝的變體是「selected」,失敗的變體是「rejected」。A/B 測試資料特別有價值,因為它具有統計顯著性——你知道偏好是真實的,而非雜訊。

    品質審閱的模型輸出

    許多企業有品質審閱流程,高級員工審閱和評分 AI 輸出。醫療機構審閱 AI 生成的臨床摘要、律師事務所審閱 AI 起草的合約條款、銀行審閱 AI 生成的風險評估——所有這些都產生分等级的輸出,直接對應到偏好配對。

    專家糾錯

    當領域專家糾正 AI 輸出時,你得到一個自然的偏好配對。原始輸出是「rejected」,糾正版本是「chosen」。這是最高品質的偏好資料,因為糾錯是有針對性的,專家確切了解為何原版是錯誤的。

    內部風格指南和合規規則

    你的組織的溝通指南、合規模板和品牌聲音文件,定義了「好」的樣子。生成一個遵循指南的回應和一個違反特定規則的回應的配對。這些是系統性的,可以大規模產生。

    準備管道

    第一步:收集提示-回應配對

    從上述來源聚合原始資料。對於每個來源,提取提示(輸入或問題)和至少兩個候選回應。在此階段,不要擔心格式——專注於完整性。

    目標:1,000 到 2,000 個原始提示-回應集。過濾和格式化後,預計保留 50% 到 70% 作為可用的 DPO 配對。

    第二步:領域專家排名或選擇偏好回應

    這是需要人類判斷且無法自動化的步驟。向領域專家呈現每個提示及其候選回應,並要求他們選擇首選回應。

    仔細構建任務:

    • 同時顯示提示和所有候選回應
    • 要求標注者選擇最佳回應和最差回應(如果存在兩個以上候選)
    • 要求對選擇進行簡短說明(一句話)
    • 提供明確的指導方針:「選擇最符合我們內部政策、使用適當語氣並提供準確資訊的回應」

    當介面設計良好時,領域專家每小時可評估 40 到 60 個配對。對於 1,000 個配對,預算 20 到 25 小時的專家時間——通常在 2 到 5 週內分散於 3 到 5 位專家。

    第三步:格式化為 DPO 配對

    將排名輸出轉換為標準 DPO 三元組格式:prompt、chosen、rejected。如果專家對兩個以上的回應進行了排名,從同一提示創建多個配對(排名最高的回應與每個排名較低的回應之間)。

    驗證格式:確保沒有空欄位、沒有截斷的回應,以及一致的編碼。刪除選擇和拒絕回應幾乎相同的樣本——模型無法從差異可以忽略不計的配對中學習。

    第四步:用標注者間一致性進行品質檢查

    如果多位專家標注了相同的樣本,計算標注者間一致性。對於偏好資料,Cohen's kappa 高於 0.7 表示強一致性。低於 0.5,指導方針是模糊的,需要修訂。

    分歧是有啟發性的。如果兩位專家對哪個回應更受歡迎存在分歧,請調查原因。常見原因:指導方針模糊、政策未涵蓋的邊緣案例,或專家意見的真正差異。通過討論解決分歧,而非多數表決——目標是闡明標準,而非掩蓋不一致性。

    第五步:匯出

    以你的訓練框架所需的 JSONL 格式匯出已驗證的配對。對於大多數 DPO 實現(TRL、Axolotl、LLaMA-Factory),格式為:

    {"prompt": "...", "chosen": "...", "rejected": "..."}

    分成訓練集(85%)和驗證集(15%)。驗證集用於監控 DPO 訓練損失——如果驗證損失偏離訓練損失,你就是在對偏好資料過度擬合。

    為何這必須在本地環境進行

    偏好資料可以說比它所衍生的原始訓練資料更敏感。原因如下。

    選擇/拒絕配對揭示了組織認為「好」的標準——其品質標準、合規閾值、風險承受能力和溝通規範。競爭對手如果能存取你的偏好資料,就確切知道你的組織如何做決策以及它優先考慮什麼。

    「拒絕」的回應特別能說明問題。它們顯示了組織認為不可接受的內容——失敗模式、合規違規、損害品牌的回應。這是針對組織 AI 系統的對抗性攻擊手冊。

    在受監管行業,偏好資料通常編碼了合規決策。金融機構的偏好資料顯示了它如何解讀監管指導方針——哪些回應通過合規審閱,哪些不通過。這是競爭對手花費數百萬開發的專有監管解讀。

    任何雲端服務,無論其安全保障多麼強大,都不應存取這些資料。準備管道在本地基礎設施上運行,使用本地 LLM 進行擴充,並匯出到本地儲存。

    使用本地 LLM 生成候選回應

    領域專家不應該從頭撰寫回應。相反,使用本地 LLM 為每個提示生成 3 到 5 個候選回應,然後讓專家選擇最佳和最差的。

    使用能力強的指令遵循模型運行 Ollama。對於每個提示,以不同溫度(0.3、0.7、1.0)生成回應,以獲得從保守到創意的範圍。還要以不同的系統提示生成回應——一個強調簡潔,一個強調全面,一個故意有缺陷(用於拒絕樣本)。

    這種方法從 1,000 個提示產生 3,000 到 5,000 個候選回應。專家審閱時間從「撰寫回應」降為「選擇和比較」,將工作量大約減半。

    規模需求

    DPO 相對於 RLHF 效率較高,但仍需要有意義的偏好配對量。

    最低可行: 500 個配對。足以在特定行為上看到方向性改善(例如減少過於隨意的語氣)。不足以實現全面對齊。

    建議: 2,000 到 3,000 個配對。涵蓋主要行為維度——語氣、準確性、合規性、披露和安全性。這是大多數企業部署的最佳平衡點。

    全面: 5,000 個以上的配對。當模型服務於具有不同需求的多個使用者群體時需要(例如同時服務客戶支援和內部分析師工作流程的模型)。

    低於 500 個配對,DPO 訓練訊號太弱,無法產生一致的行為變化。超過 5,000 個,你需要驗證配對是否不矛盾——衝突的偏好訊號會降低模型性能。

    常見錯誤

    明顯的配對: 如果選擇的回應在每個指標上都明顯更好,模型什麼都學不到。最有效的配對是兩個回應都合理,但因為特定原因而偏好其中一個的情況。微妙的區別產生最強的對齊訊號。

    不一致的標準: 如果專家 A 偏好簡短回應而專家 B 偏好詳細回應,結果資料集包含矛盾訊號。在標注開始之前,而非之後,就指導方針達成一致。

    忽視分佈: 如果你的 80% 的配對涉及語氣,只有 5% 涉及準確性,模型在語氣上會強烈對齊,但在準確性上很弱。在你關心的行為維度上平衡配對。

    過時資料: 政策改變,法規更新,品牌聲音演化。12 個月前的偏好資料集可能編碼了過時的標準。計劃每季度更新。

    DPO 對齊是一個資料品質問題,而非資料數量問題。一千個精心製作的偏好配對將超越一萬個草率的配對。在專家審閱上投入時間,對齊結果就會隨之而來。

    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    延伸閱讀

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading