
不使用雲端 API 的訓練資料集本地品質評分
如何在本地評分訓練資料品質——涵蓋標籤準確率、標注者間一致率、異常值檢測和無雲端依賴的置信度學習。
訓練資料集不會因為它存在就準備好了。當您能夠量化其品質時,它才準備好——並且當該品質足夠高,使得在其上訓練的模型在生產環境中表現良好時。
大多數團隊將資料品質視為二元的:資料是「乾淨的」或者不是。實際上,品質 是跨多個維度的一個連續體,資料中不同的問題導致訓練模型中不同的失敗模式。錯誤標記的示例導致模型學習錯誤的模式。重複聚類導致過度擬合。分佈不平衡導致少數類別性能不佳。異常值引入雜訊。
在這些維度上評分品質——而不將資料發送到雲端 API——是本指南的重點。
訓練資料的品質維度
標籤準確率
最有影響力的品質維度。如果您的 10% 標籤是錯的,您的模型性能上限大約是 90%——而在實際中更低,因為錯誤的標籤不只是降低準確率,它們積極地教導錯誤的模式。
如何在本地測量:
交叉驗證置信度:在資料集上訓練一個小模型,並檢查哪些示例模型始終答錯。模型與標籤不一致的示例是標籤錯誤的候選者。這是 Cleanlab 置信度學習方法的基礎。
本地 LLM 驗證:使用本地模型獨立預測每個示例的標籤。將模型預測與人工標籤進行比較。不一致之處需要人工重新審查。70 億指令遵循模型不會匹配領域特定任務的人類專家準確率,但它捕獲明顯的錯誤——而明顯的錯誤是最損害模型性能的。
標注者自一致性:如果同一標注者在不同時間標注了相同的內容,他們是否與自己一致?低自一致性表明標記指南不明確或標注者疲勞。
標注者間一致率
當多名標注者標注相同示例時,他們的一致率表明任務定義的清晰程度和標籤的可靠性。
Cohen's Kappa:測量兩名標注者之間的一致率,對偶然一致率進行了修正。0.8 以上的值表示強一致率;0.6 以下表明標記指南需要修訂。
Fleiss' Kappa:擴展到多名標注者。當您有領域專家池,不同專家標注不同子集時很有用。
Krippendorff's Alpha:處理缺失資料(並非每個標注者都標注每個示例),並適用於有序、區間和名義資料類型。最靈活的一致率指標。
對於服務提供者,標注者間一致率也是品質可交付物。當您向客戶交付資料集,其 Krippendorff's Alpha 為 0.85 時,這是一個有證據支持的可測量品質 聲明。
| 一致率指標 | 分數範圍 | 解讀 |
|---|---|---|
| Cohen's Kappa | 0.81 到 1.00 | 幾乎完美的一致率 |
| Cohen's Kappa | 0.61 到 0.80 | 實質性一致率 |
| Cohen's Kappa | 0.41 到 0.60 | 中等一致率——審查指南 |
| Cohen's Kappa | 0.21 到 0.40 | 一般——標記問題嚴重 |
| Cohen's Kappa | 低於 0.20 | 輕微——任務定義不清楚 |