Back to blog
    超越 Cohen's Kappa 的標註品質指標:從業者指南
    annotationdata-qualitymetricsml-researchbest-practices

    超越 Cohen's Kappa 的標註品質指標:從業者指南

    一份關於超越 Cohen's Kappa 的標註品質指標的嚴謹指南——涵蓋 Krippendorff's Alpha、F1 一致性、混淆矩陣、校準會議以及何時使用每種方法。

    EErtas Team·

    Cohen's Kappa 已成為機器學習專案中衡量標註者間一致性(IAA)的預設指標。它是熟悉的、被廣泛引用的、且易於計算的。然而,對於許多標註任務來說,它是不夠的——在某些情況下甚至會產生誤導。

    本指南審視了 Cohen's Kappa 的局限性,並介紹了能夠提供更可靠、更有資訊量的標註品質評估的替代指標。目標不是否定 Kappa,而是為從業者配備適合其測量情境的正確工具。

    為什麼 Cohen's Kappa 不夠用

    Cohen's Kappa 衡量恰好兩名標註者在分類標籤上的一致性,並校正了隨機一致性。其公式很直接:K = (p_o - p_e) / (1 - p_e),其中 p_o 是觀察到的一致性,p_e 是預期的隨機一致性。

    對隨機性的校正是 Kappa 的優勢,但其實作做出了在實踐中經常不成立的假設:

    僅限兩名標註者。 Kappa 僅為恰好兩名評分者定義。當你有三個、五個或二十個標註者時——這在生產標註工作流程中很常見——你必須計算成對的 Kappa 分數並取平均值。這種成對平均會丟失關於系統性分歧模式的資訊。

    僅限名義類別。 Kappa 將所有分歧視為同等嚴重。將「正面」與「中性」混淆與將「正面」與「負面」混淆的計數相同。對於有序或層次化的標籤方案,這是有問題的。

    對流行度敏感。 Kappa 對類別分佈出了名地敏感。當一個類別佔主導地位(例如 95% 的樣本是「負面」)時,即使觀察到的一致性很高,也會產生低 Kappa 分數——即所謂的 Kappa 悖論。這導致團隊錯誤地得出標註者表現不佳的結論,而實際上一致性是強的。

    不容忍缺失資料。 Kappa 要求兩名標註者標註每個項目。在實際標註工作流程中,標註者標註重疊但不完全相同的子集。缺失資料需要丟棄不完整的項目或插補標籤——兩者都不理想。

    替代方案

    Krippendorff's Alpha

    Krippendorff's Alpha 解決了 Kappa 的大多數結構性局限。它支援任意數量的標註者、原生處理缺失資料,並適用於名義、有序、區間和比率測量尺度。

    關鍵的概念差異:Alpha 測量的是不一致而非一致。它計算觀察到的不一致與預期不一致的比率,產生的值中 1.0 表示完美一致,0.0 表示隨機水準的一致,負值表示系統性的不一致。

    何時使用:

    • 每個項目有三個或更多標註者
    • 有序或層次化標籤方案(例如嚴重程度評級、品質等級)
    • 不是每個標註者都標註每個項目的標註工作流程
    • 當類別分佈高度偏斜時

    局限性:

    • 對於大型資料集,計算成本高於 Kappa
    • 距離函數的選擇(名義、有序、區間)影響結果,必須有正當理由
    • 向非技術利害關係人解釋時不夠直觀

    解釋閾值(根據 Krippendorff 本人的指導):Alpha 達到 0.80 或以上被認為在大多數用途中是可靠的。Alpha 在 0.667 到 0.80 之間允許做出初步結論。低於 0.667 的值表明資料不應用於分析。

    F1 一致性(Span 層級)

    對於序列標註任務——命名實體辨識(NER)、詞性標註、關係擷取——傳統的 IAA 指標在 token 層級操作。這會產生誤導,因為單個實體 span 的分歧(例如一個標註者標註「New York City」而另一個只標註「New York」)被計為多個 token 層級的分歧。

    F1 一致性將標註視為檢索問題:一個標註者的標籤是「金標準」,另一個的是「預測」。精確率、召回率和 F1 在 span 層級計算。

    何時使用:

    • NER、實體擷取或任何基於 span 的標註任務
    • 當部分 span 重疊在語意上有意義時
    • 當你需要區分邊界分歧(部分重疊的 span)和類別分歧(不同的實體類型)時

    變體:

    • 精確匹配 F1: span 必須在邊界和標籤上完全匹配
    • 部分匹配 F1: 對重疊的 span 給予分數(適用於精確邊界具有主觀性的任務)
    • 類型無關 F1: 不考慮標籤來衡量邊界一致性(隔離標註者在什麼是實體 vs. 什麼類型的實體上的分歧)

    局限性:

    • 不對稱——F1 取決於哪個標註者被視為「金標準」。最佳實踐是計算兩個方向並取平均
    • 不能很好地推廣到 span 任務之外
    • 沒有內建的隨機性校正(儘管對於 span 層級的任務,隨機一致性可以忽略不計,這個問題不太嚴重)

    混淆矩陣分析

    單個一致性分數——無論是 Kappa、Alpha 還是 F1——將豐富的分歧資訊壓縮成一個數字。混淆矩陣保留了分歧的結構。

    對於標註品質,標註者間混淆矩陣顯示標註者混淆了哪些特定的標籤對。這比單個分數更具可操作性:它揭示分歧是隨機雜訊還是標註指南中的系統性歧義。

    何時使用:

    • 始終,作為任何純量一致性指標的補充
    • 當你需要診斷分歧來源時(哪些類別被混淆了?)
    • 當修訂標註指南時(混淆矩陣告訴你哪些區分需要更清晰的定義)
    • 當評估分歧是反映資料中的真實歧義還是標註者錯誤時

    如何解讀:

    • 對角線佔主導地位表示良好的一致性
    • 非對角線聚集表示特定標籤對之間的系統性混淆
    • 非對稱的非對角線條目表示一個標註者比另一個更廣泛地應用某個類別

    局限性:

    • 超過 10 到 15 個類別時視覺上不能很好地擴展
    • 需要檢查所有標註者對(或仔細彙總)
    • 沒有單一的彙總統計量——必須定性解釋

    校準會議和一致性趨勢

    指標衡量的是某個時間點的標註品質狀態。校準會議衡量的是軌跡。

    校準會議是一種結構化練習,標註者獨立標註相同的項目集,然後作為小組討論分歧。目的不是解決每一個分歧,而是識別標註指南中的歧義並對齊解釋框架。

    何時使用:

    • 在每個標註專案開始時(標註前校準)
    • 在生產標註期間定期進行(每週或每兩週)
    • 每當一致性指標降至閾值以下時
    • 在新標註者入職時

    最佳實踐:

    • 使用 50 到 100 個代表完整難度範圍的項目作為校準集
    • 在討論前後計算一致性指標以衡量收斂
    • 將一致性指標隨時間作為趨勢線追蹤——跨會議的改進表示有效校準;停滯表示指南問題
    • 記錄校準討論產生的所有指南修訂

    局限性:

    • 耗時——校準會議消耗標註者工時
    • 如果群體動態抑制了真實分歧,可能產生人為共識
    • 需要引導技能才能有效

    指標比較表

    指標最適用於局限性何時使用
    Cohen's Kappa恰好 2 名標註者的簡單二元/分類任務僅 2 名評分者;對流行度敏感;僅名義類別;無缺失資料平衡分類任務的快速成對檢查
    Krippendorff's Alpha具有有序/區間尺度或缺失資料的多標註者任務計算量更大;距離函數選擇影響結果3 名或更多標註者的生產標註的預設指標
    F1 一致性基於 span 的任務(NER、實體擷取、關係標註)不對稱;無隨機性校正;特定於 span任何序列標註或 span 標註任務
    混淆矩陣診斷分歧來源;修訂標註指南無彙總統計量;超過 15 個類別不易擴展始終——作為任何純量指標的補充
    校準趨勢追蹤標註品質隨時間的改進;入職培訓耗時;需要引導;有人為共識風險生產標註工作流程中的持續品質管理
    Fleiss' Kappa每個評分者標註每個項目的多標註者分類任務僅名義類別;需要完整資料;對流行度敏感所有項目完全重疊的固定標註者池
    Scott's Pi標註者邊際分佈應合併的兩標註者任務假設相同的邊際分佈;很少適用當標註者真正可互換且來自同一母體時

    組合指標獲得完整畫面

    沒有單一指標能全面捕捉標註品質。最嚴謹的方法是組合多種度量:

    1. 純量一致性(Krippendorff's Alpha 或 F1 一致性,取決於任務類型)提供用於報告和閾值決策的核心數字。

    2. 混淆矩陣分析 提供用於指南改進和標註者回饋的診斷細節。

    3. 一致性趨勢(跨校準會議)提供軌跡——品質是在改善、穩定還是下降。

    4. 按類別一致性(透過將 Alpha 或 F1 限制到單個標籤來計算)識別哪些特定類別有問題,從而實現有針對性的干預。

    5. 按標註者一致性(每個標註者 vs. 多數投票)識別分歧是均勻分佈的還是集中在可能需要再培訓或重新分配的特定標註者身上。

    實踐建議

    對於目前僅使用 Cohen's Kappa 的團隊: 轉向 Krippendorff's Alpha 作為主要純量指標。Python 中透過 krippendorffnltk 套件提供了實作。概念轉變很小,但測量準確性的提升——特別是對於偏斜的類別分佈和多標註者設定——是顯著的。

    對於根本不測量 IAA 的團隊: 從混淆矩陣開始。它們不需要統計計算,提供即時的診斷價值,並建立檢查分歧模式的習慣。流程建立後再新增純量指標。

    對於將標註品質納入 SLA 的團隊: 在 Krippendorff's Alpha 上定義閾值(生產資料最低 0.80,探索性標註最低 0.667),並要求在定義的時間間隔審查混淆矩陣。將校準會議結果作為領先指標追蹤。

    對於處理基於 span 任務的團隊: 使用 span 層級 F1 一致性的精確匹配和部分匹配變體。精確匹配 F1 和部分匹配 F1 之間的差距專門量化了邊界分歧,這通常是最具可操作性的信號。

    測量陷阱

    最後一個提醒:標註品質指標衡量的是一致性,而不是正確性。高標註者間一致性意味著標註者彼此一致。它不意味著他們是正確的。如果你的標註指南編碼了對任務的錯誤解釋,標註者可以在錯誤的標籤上完美一致。

    這就是為什麼領域專家審查——與標註者間一致性測量分開——仍然是必不可少的。指標確保一致性。專家審查確保有效性。兩者都是必要的;單獨一個都不夠。

    從 Cohen's Kappa 到全面的標註品質測量策略的路徑並不複雜,但需要有意識地去做。為你的任務類型選擇正確的指標,用診斷工具補充純量分數,並隨時間追蹤品質而不是測量一次就假設穩定。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading