Back to blog
    AI數據質量是領域問題,而非代碼問題
    data-qualitydomain-expertiseenterprise-aidata-labelingsegment:enterprise

    AI數據質量是領域問題,而非代碼問題

    AI中的數據質量從根本上是關於領域知識,而非工程。完美的管道如果標記標準是錯誤的就會產生垃圾。最好的去重也無法判斷保留哪個版本。

    EErtas Team·

    AI行業存在一種根深蒂固的觀念,認為數據質量是工程挑戰。構建更好的管道。編寫更多驗證規則。添加自動化質量檢查。部署統計異常檢測。如果數據很差,這種想法認為,代碼還不夠好。

    這種觀念是錯誤的。數據質量從根本上是領域知識問題。沒有任何工程複雜性可以彌補對數據含義缺乏理解、哪些值是正確的,以及「質量」在您試圖解決的特定問題背景下是什麼樣子。

    管道幻覺

    考慮一個構建模型按緊急性分類客戶支持工單的公司。他們的數據工程非常出色:

    • 從 5 個工單來源自動攝取
    • 使用模糊匹配和 0.92 相似性閾值進行去重
    • 確保所有必填字段存在的模式驗證
    • 在文本長度和響應時間中標記異常值的統計檢查
    • 帶有分層的自動化訓練/測試分割

    管道是乾淨的。代碼是健壯的。模型在 50,000 個工單上訓練,在緊急性分類上達到 73% 的準確率。

    問題不在管道。問題在於「緊急」與「高優先級」與「正常」的標記標準是由從未在客戶支持工作過的 ML 工程師定義的。在他們的模式中,影響 3 個用戶的生產中斷工單是「高優先級」。在支持團隊的實際分診框架中,它是「緊急」的,因為這 3 個用戶在企業計劃上,有一個在 2 小時後觸發財務懲罰的 SLA。

    管道完美地處理了數據。它只是處理了帶有錯誤標籤的數據。

    代碼無法幫助的地方

    有幾類數據質量問題是任何工程解決方案都無法解決的:

    錯誤的標記標準。 如果您的分類模式中「正面」和「負面」的定義與現實世界的決策邊界不匹配,每個標籤都可能是錯誤的——但沒有驗證規則可以檢測到這一點。標籤在內部是一致的、格式正確的、統計分佈合理的。它們只是錯誤的。

    一個具體示例:一個醫學影像團隊為肺炎檢測標記胸部 X 光片。他們的標記指南說「如果肺野中存在陰影,則標記為陽性」。放射科醫師會告訴他們,肺野中 15-20% 的陰影不是肺炎——它們是肺不張、積液或偽影。標籤通過所有質量檢查。模型學會了檢測陰影,而非肺炎。

    錯誤的去重決策。 去重算法可以識別兩條記錄是否相似。它們無法確定哪個是正確的。當一個客戶在數據集中出現兩次,地址略有不同時,算法可以標記重複項。它不知道一個地址是客戶的家,另一個是他們的辦公室,正確的地址取決於使用案例。

    我們曾與一個金融服務團隊合作,他們對交易記錄使用自動化去重。算法合併了金額相同且時間戳相似的記錄,將它們視為重複項。實際上,8% 的「重複項」是合法的獨立交易——同一天同一收款人收到的兩筆 4,500 美元的電匯,但對應不同的發票。去重減少了數據集大小,但也因為刪除了真實數據而降低了模型準確率。

    誤解數據語義。 標記為「completion_date」的字段在不同背景下可能意味著不同的事情:任務在系統中標記完成的日期、工作實際完成的日期,或主管驗證完成的日期。使用錯誤的解釋會引入系統性錯誤,沒有驗證規則可以捕捉到,因為數據類型和格式是正確的。

    依賴上下文的質量標準。 在某些領域,「足夠好」的數據質量取決於特定應用。客戶名字拼錯為「Jonh」而非「John」對於推薦系統是可以接受的,但對於將名字與制裁名單匹配的合規篩查模型是不可接受的。不考慮應用背景的質量評分會產生誤導性的置信度。

    重要的領域知識

    數據質量決策需要代碼沒有的三種領域知識:

    語義知識。 理解數據值在上下文中的含義。ML 工程師看到一個值為 0-10 的字段,將其視為連續數值特徵。領域專家知道 1-3 的值是「正常」,4-6 是「升高」,7-10 是「危急」——模型決策最重要的是各類別之間的閾值。

    操作知識。 理解數據是如何收集的以及它的局限性。領域專家知道製造日誌中的週末條目不太可靠,因為初級操作員在週一從記憶中填寫。ML 工程師平等對待所有行。

    後果知識。 理解模型出錯時會發生什麼。領域專家知道錯誤分類某類交易具有監管影響,而錯誤分類另一類只是不方便。這種知識應該影響您對數據集不同部分進行清理、驗證和平衡的力度。

    真正的質量流程

    有效的數據質量不是添加了領域知識的代碼管道。它是一個以代碼支持執行的領域驅動過程。

    第一步:領域專家定義質量標準。 在任何代碼運行之前,領域專家指定每個標籤的「正確」含義、存在哪些邊緣案例,以及應如何處理模棱兩可的示例。這不是一個一小時的會議。這是一個通常需要 1-2 週討論、示例審查和標準細化的迭代過程。

    第二步:領域專家標記種子數據集。 由領域專家標記的一小組示例(200-500 個)建立基準事實。這個種子數據集作為衡量所有後續標籤和模型輸出的質量基準。

    第三步:質量指標參考領域判斷。 標注者間一致性、標籤分佈分析和邊緣案例審查都是根據領域專家的種子標籤衡量的。如果自動化質量檢查將一批標籤標記為有問題,領域專家——而非 ML 工程師——調查並確定問題是標記錯誤還是合法的分佈偏移。

    第四步:領域專家審查模型錯誤。 當模型錯誤分類示例時,領域專家檢查錯誤分類,以確定錯誤是源於訓練數據不足、標籤不正確、標準不明確,還是模型本不應處理的真正邊緣案例。

    這個過程需要領域專家直接與數據和標記工具互動。如果領域專家只能通過會議和 Slack 消息參與,該過程會退化回代理標記——這正是質量問題的根源。

    做錯的代價

    將數據質量視為工程問題的組織在模型開發上花費的是將其視為領域問題的組織的 2-3 倍。原因如下:

    更多訓練周期。 當標籤微妙地錯誤時,模型準確率在一個看似可提高但抵制每次工程干預的水平上停滯——更多數據、更好的架構、更長的訓練。團隊迭代數週或數月,才有人最終質疑標籤。

    延遲部署。 在領域不正確的數據上訓練的模型與在嘈雜數據上訓練的模型失敗的方式不同。嘈雜數據產生均勻降低的性能。領域不正確的數據在特定類別上產生有信心的錯誤——模型對它犯錯的案例很確定。這些有信心的錯誤通常在用戶驗收測試期間被發現,並需要重新啟動數據收集過程。

    侵蝕信任。 當模型自信地錯誤分類領域特定案例時,領域專家對AI工具整體失去信心。重建這種信任比第一次做對花費更多。

    Andrew Ng 的數據中心AI工作的研究表明,領域專家的系統性標籤更正平均將模型性能提高 5-15%——超過大多數架構更改。數據,而非模型,是質量所在之處。

    讓領域專家主導

    當領域專家可以直接檢查、標記、驗證和更正訓練數據時,數據質量就會提高。這需要對沒有 ML 工程技能的人可訪問的工具。

    Ertas Data Suite 正是為此目的而構建的。這是一個原生桌面應用程序,領域專家直接與數據工作——定義標籤模式、應用標籤、查看質量指標和更正錯誤——無需編寫代碼或導航技術基礎設施。數據保留在他們的機器本地。界面使用領域術語,而非 ML 術語。

    ML 團隊獲得更好的數據。領域專家保持對質量的所有權。模型在反映真實領域知識的標籤上訓練,而非工程師的最佳猜測。

    數據質量是領域問題。工具應該讓領域專家來解決它。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading