
為什麼你的 ML 工程師不應該標記資料(以及誰應該)
你年薪 $180K 的 ML 工程師正在花費 60% 的時間進行資料標記。這是每年 $108K 的資源錯配。以下是如何將標記工作轉交給領域專家,讓 ML 工程師專注於真正的工程工作。
這裡有一個數字應該讓每位工程主管感到憂慮:美國 ML 工程師的平均年薪總報酬為 $150,000-$200,000。這些是擁有機器學習、統計學或電腦科學研究生學位的人。他們被聘用來設計模型架構、執行訓練實驗、構建評估框架並部署生產推理系統。
他們正在花費 60-80% 的時間清理試算表、手動標記文件、編寫資料轉換腳本,以及除錯匯出格式。
讓我們明確計算一下。以 5 名平均 總報酬 $180,000 的 ML 工程師團隊為例:
- 花費在資料準備上的時間:65%(60-80% 的中點)
- 資料準備工作的年度成本:5 × $180,000 × 0.65 = $585,000
- 實際 ML 工程的年度成本:5 × $180,000 × 0.35 = $315,000
你為 ML 工程師團隊支付 $900,000,卻只獲得 $315,000 的 ML 工程工作價值。另外 $585,000 用於領域專家可以做得更好、費用更低的工作人員可以支援的工作。
這不是 ML 工程師懶惰或效率低下的問題。這是一個結構性問題:資料準備的工具和工作流程是為 ML 工程師設計的,所以 ML 工程師最終做這些工作。改變工具和工作流程,工作就可以轉移給應該做這些工作的人。
為什麼 ML 工程師是標記資料的錯誤人選
他們缺乏領域專業知識
讀過 50,000 張胸部 X 光片的放射科醫師可以在幾分之一秒內發現一個 3mm 的結節。擁 有電腦視覺博士學位的 ML 工程師無法。估算過 200 棟商業建築的施工估算師可以立即識別不合理的單位成本。盯著工程量表的 ML 工程師只看到數字。
當 ML 工程師標記特定領域資料時,他們會犯領域錯誤。他們把良性發現分類為可疑,因為他們不認識這個模式。他們將合約條款標記為「標準」,而律師會將其標記為不尋常。他們將施工規範標記為完整,而工程師會注意到缺少的參考標準。
這些標記錯誤會傳播到模型中。在 ML 工程師標記的醫療資料上訓練的模型,學習的是 ML 工程師對醫學的(錯誤)理解。生成的模型是自信地錯誤的——這是最糟糕的可能結果。
證據是一致的:由領域專家標記的資料集,在特定領域任務上產生的模型比 ML 工程師標記的資料集準確率高 8-15 個百分點。這個差距是已部署模型和被放棄模型之間的差異。
他們過度勝任
資料標記需要注意力和領域知識。它不需要從頭實現注意力機制、推導梯度更新或設計分散式訓練管道的能力。讓 ML 工程師做標記就像讓結構工程師搬磚——他們可以做,但這是對他們最有價值技能的浪費。
機會成本是真實的。當你的 ML 工程師在標記資料時,他們沒有在:
- 嘗試可以將效能提高 5-10% 的模型架構
- 構建在用戶發現之前捕獲生產故障的評估框架
- 優化將服務成本降低 40% 的推理管道
- 開發即時偵測模型漂移的監控系統
這些活動中的每一項都比再標記 50 個文件產生更多的價值。
他們會精疲力竭
資料標記是重複性的。標記一個文件。再標記一個文件。一個又一個。查看指南。再標記一個文件。對於進入這個領域是為了解決有趣技術問題的人來說,在標記隊列中花費數週是令人沮喪的。
資料標記導致的倦怠表現為標籤品質下降(標記員疲勞)、吞吐量降低(拖延),以及最終的求職行為。更換一名 ML 工程師的成本為其年薪的 50-100%,包括招募、入職和生產力損失。如果資料標記在推動人才流失,成本遠超直接薪資計算。
他們會離職
頂尖 ML 人才需求旺盛。花費時間標記資料而不是構建模型的工程師會找到提供更有趣工作的雇主。在招聘面試中,候選人定期引用「我在資料清理上花費了 80% 的時間」作為離開上一個職位的原因。
留住頂尖 ML 人才需要給他們 ML 問題來解決。資料標記不是 ML 問題——它是一個應該由領域專家解決的領域專業知識問題。
誰應該標記資料
領域專家
理解資料的人是標記資料的正確人選。醫生標記醫療資料。律師標記法律資料。工程師標記工程資料。金融分析師標記金融資料。
這在原則上並不有爭議。每個人都同意放射科醫師比 ML 工程師更善於識別胸部 X 光片上的發現。爭議在於實際操作:「我們的領域專家太忙了」、「他們不會使用我們的標記工具」、「他們不想做這些工作」。
這些都是可以解決的問題:
「他們太忙了。」 確實如此。這就是為什麼每次作業應該是 20 分鐘,而不是 2 小時。3 名領域專家每天 20 分鐘可以每天產生 45-90 個標記範例。在 4 週內,這是 900-1,800 個範例——足以完成許多微調任務。
「他們不會使用我們的標記工具。」 目前的標記工具(Label Studio、Prodigy、CVAT)是為 ML 工程師構建的。它們需要 Python 環境、終端命令、網頁應用程式導覽和標記架構知識。領域專家需要一個像文件查看器一樣打開並用點擊標記的工具。工具是瓶頸,而不是使用者本身。
「他們不想做這些工作。」 他們不想為不明確目的使用複雜軟體。向他們展示他們的標記如何直接改善他們將使用的 AI 工具,給他們一個簡單的介面,並為他們的作業設定時間限制。透過適當的變更管理,70% 以上的採用率是可以實現的。
AI 輔助標記與專家審閱
對於高流量的標記任務,混合方法有效:AI 模型生成建議標籤,領域專家審閱並糾正它們。
這比從頭開始標記更快——審閱一個建議需要 3-5 秒,而從頭創建一個標籤需要 10-30 秒。對於 20 分鐘的作業,這意味著 240-400 個審閱的範例,而不是 40-120 個手動標記的範例。吞吐量提高 3-4 倍。
關鍵:AI 建議必須足夠好,使大多數是正確的。如果專家在糾正 60% 的建議,閱讀和評估糟糕建議的開銷會抵消速度優勢。在部署 AI 輔助標記之前,目標是 80% 以上的建議準確率。
交接:重新定義角色
從「ML 工程師標記所有內容」過渡到「領域專家在 ML 工程師支援下標記」需要明確的職責分工。
ML 工程師在資料準備中的新角色
管道架構師: 設計資料準備管道——攝取、解析、品質檢查、匯出配置。這是真正的工程工作,適當地利用了他們的技能。
品質分析師: 定義品質指標(標記者間一致性、類別平衡、去重率),在標記進行中監控它們,並向標記團隊標記系統性問題。
統計驗證員: 標記完成後,從統計角度驗證資料集。是否存在標記員偏差?某些類別是否過度/不足代表?輸入分佈是否符合生產預期?
整合工程師: 確保標記的資料集正確流入訓練管道。格式轉換、資料分割、增強——這些是屬於 ML 工程師的工程任務。
領域專家的 新角色
標記權威: 將他們的專業判斷應用於訓練範例。他們的標籤是基準事實。
指南作者: 以其他領域專家可以遵循的術語記錄標記標準。這本質上是為 AI 訓練資料編寫專業標準——只有領域專家才能做的工作。
品質審閱員: 抽查其他標記員的標籤。每週 15 分鐘的審閱作業可以及早發現系統性錯誤。
邊緣案例識別者: 標記管道處理不當的異常範例。領域專家處於識別異常內容到達的獨特位置,因為他們在職業生涯中見過數千個「正常」範例。
財務影響
用新模式重新審視計算:
之前: 5 名 ML 工程師 × $180K × 65% 資料準備 = 每年 $585K 用於資料準備
之後:
- ML 工程師用於資料準備:5 × $180K × 20%(管道架構、品質分析、驗證)= 每年 $180K
- 領域專家標記:4 名專家 × 每天 30 分鐘 × 250 個工作日 × 相當於 $75/小時 = 每年 $37,500
- 資料準備總成本:每年 $217,500
節省:每年 $367,500——而且你獲得更好的標記資料,因為領域專家在做標記工作。
釋放的 ML 工程師產能(相當於每年 $405K 薪資)可以重新導向到:
- 更多模型實驗(更快找到更好的架構)
- 更好的評估框架(在生產前發現問題)
- 推理優化(降低服務成本)
- 監控和可觀察性(更早偵測漂移)
這些活動中的每一項都直接產生資料標記所不能產生的業務價值。
需要改變什麼
工具必須改變
目前的標記工具是為 ML 工程師構建的。它們假設對網頁應用程式、JSON 配置和基於終端的工作流程感到舒適。領域專家需要:
- 像任何其他桌面應用程式一樣安裝的桌面應用程式
- 看起來熟悉的文件查 看——就像他們已經使用的 PDF 查看器或 EMR 系統
- 需要零培訓的標記控制——點擊按鈕、選擇類別、移動到下一個範例
- 自動儲存,使中斷的工作永遠不會丟失
- 不需要 Python、不需要終端、不需要配置文件
工作流程必須改變
停止要求 ML 工程師「只標記幾個範例來開始」。這幾個範例會變成幾百個,然後是幾千個。相反:
- ML 工程師設置管道並配置品質指標
- ML 工程師標記 10-20 個範例以創建初始標記指南
- 領域專家接手標記,使用指南
- ML 工程師監控品質指標並提供統計反饋
- 領域專家審閱並解決品質問題
- ML 工程師驗證最終資料集並配置匯出
組織必須改變
資料標記必須被視為領域專家的工作,而不是 IT 工作。這意味著:
- 領域專家用於標記的時間被預算化和保護