
注釋瓶頸:當您的組織中只有 3 個人能標注數據時
大多數企業有 2-3 名能操作注釋工具的 ML 工程師。同時,數十位擁有高品質標注所需知識的領域專家閒置著。這個瓶頸正在扼殺 AI 時間表。
以下是幾乎每個企業 AI 項目中都會出現的場景。ML 團隊需要 10,000 個標注示例。組織雇用了 40 個具有準確標注所需領域專業知識的人。但注釋工具需要 Python、Docker 或雲端平台訪問。因此,實際標注工作落到了 2-3 名 ML 工程師身上,而他們必須解釋自己並不具備的領域知識。
40 名領域專家有知識。3 名 ML 工程師有工具訪問權 限。項目需要 4 個月而不是 3 週。
這就是注釋瓶頸,它是企業 AI 項目錯過截止日期、超出預算並產生令人失望結果的最被低估的原因之一。
瓶頸是如何形成的
注釋瓶頸不是關於努力或意願的問題。它是關於工具可訪問性的問題。以下是它通常如何發展的:
第一階段:工具選擇。 ML 團隊評估注釋平台。他們根據功能、API 品質、模型整合和匯出格式進行選擇。對非技術用戶的可用性是次要考慮因素,如果有的話。
第二階段:設置。 所選工具需要雲端部署或自託管。雲端部署意味著將潛在敏感的企業數據上傳到第三方服務器。自託管意味著 Docker、反向代理、認證系統和持續維護。無論哪種方式,ML 團隊都擁有基礎設施。
第三階段:入職嘗試。 團隊嘗試讓領域專家入職。這需要創建帳戶、解釋界面、配置權限,通常還需要編寫自定義腳本來加載特定領域的數據格式。經過 2-3 次培訓後,採用停滯了。領域專家有自己的工作要做。學習新的技術工具不在他們的工作流程中。
第四階段:ML 團隊標注。 截止日期臨近。ML 工程師開始自己標注數據,在遇到模糊示例時通過 Slack、電子郵件或安排的會議諮詢領域專家。注釋工作負載現在與他們的工程職責競爭。
這就是瓶頸。它有三個複合效應。
效應 1:電話遊戲
當 ML 工程師遇到模糊示例時,他們向領域專家尋求指導。這創建了一個在每個步驟降低信息品質的溝通鏈。
考慮一個保險理賠處理項目。ML 工程師看到一個理賠描述,需要對損壞類型進行分類。他們向承保人發消息:「這是水損還是結構損壞?」承保人回答:「這是導致結構損壞的水損——您通常會根據近因(即水)進行分類,但如果結構損壞超過總理賠價值的 40%,一些保險公司會重新分類它。」
ML 工程師現在必須將這個細微的領域邏輯翻譯成單個標籤。他們選擇「水損」並繼續前進。細微之處——40% 的閾值、特定承保人的變化——丟失了。
這就是電話遊戲效應。領域知識通過一個無法承載其全部複雜性的溝通渠道被壓縮。在數千個示例中,這些壓縮積累成系統性標注錯誤。
根據我們與企業團隊合作的經驗,電話遊戲標注與直接專家標注相比引入了額外 5-12% 的標注錯誤。在 10,000 個示例的數據集上,這是 500-1,200 個標注品質降低的示例——足以 顯著降低模型性能。
效應 2:吞吐量崩潰
數學很簡單。如果您的組織有 3 名可以操作注釋工具的 ML 工程師,每人每天在完成工程工作的同時大約可以標注 200 個示例,您的最大吞吐量是每天 600 個標注示例。
如果您需要 10,000 個標注示例,那大約是 17 個工作日——超過 3 個日曆週——假設 ML 工程師什麼都不做。
實際上,他們還在構建管線、訓練模型、調試基礎設施和參加會議。現實吞吐量更接近每位工程師每天 50-100 個標注示例。按這個速度,10,000 個示例需要 5-10 週。
現在考慮替代方案。如果 20 名領域專家每人每天可以標注 100 個示例——這是保守的,因為當您理解領域時標注更快——相同的數據集在 5 個工作日內完成。
吞吐量差異不是漸進式的。它是一個數量級。它在整個項目時間表中級聯。每次模型迭代、每次架構修訂、每次數據刷新都在等待同一批 3 個人。
效應 3:時間表破壞
企業 AI 項目通常 遵循一個週期:標注數據、訓練模型、評估、識別差距、標注更多數據、重新訓練。每個週期理想上需要 1-2 週。大多數項目需要 3-5 個週期才能達到生產品質。
有了注釋瓶頸,每個週期延伸到 4-8 週。一個應該需要 3-4 個月的項目需要 9-12 個月。在這些額外的月份中,要求發生變化,利益相關者失去信心,預算受到質疑,競爭優先事項吸收了 ML 團隊的注意力。
我們追蹤了 2025 年 15 個企業 AI 項目的時間表。有注釋瓶頸的——能操作標注工具的人少於 5 人——從啟動到生產部署平均需要 11.2 個月。領域專家可以直接標注的平均需要 4.8 個月。相同類型的項目,相似的數據量,可比較的模型架構。
6 個月的差異幾乎完全歸因於標注吞吐量和迭代速度。
為什麼這個瓶頸是不可見的
注釋瓶頸很少出現在項目計劃或回顧中。原因如下:
它看起來像工程問題。 當項目落後於計劃時,可見症狀是「模型不夠準確」或「我們需要更多訓練數據」。根本原因——標注吞吐量受工具可訪問性限制——隱藏在這些症狀背後。
沒有人追蹤標注速度。 大多數團隊追蹤模型準確性、訓練時間和推理延遲。幾乎沒有人測量每天標注的示例數或每個示例的標注時間。沒有這些指標,瓶頸是不可見的。
ML 團隊承擔成本。 ML 工程師通常不會將「我花了 60% 的時間標注數據」升級為項目風險。他們將其視為工作的一部分。組織成本——高級工程師做領域專家可以做得更好更快的工作——未被認識到。
打破瓶頸
解決方案不是聘用更多 ML 工程師。不是購買更昂貴的注釋平台。而是消除阻止領域專家直接標注的技術障礙。
這需要一套特定的能力:
零基礎設施部署。 標注工具必須在沒有 IT 參與、Docker 或雲端配置的情況下安裝和運行。如果需要向基礎設施團隊提交工單,採用將會停滯。
本地數據處理。 企業數據是敏感的。醫療記錄、法律文件、財務數據、工程規格。工具必須使用用戶機器上的文件工作,不讓數據離開組織範圍。
視覺架構定義。 領域專家應該通過視覺界面定義標籤的樣子——類別、層次結構、關係——而不是 JSON 配置文件。
標準匯出格式。 輸出必須在沒有自定義轉換腳本的情況下與現有 ML 管線整合。
Ertas Data Suite 旨在消除注釋瓶頸。它是一個原生桌面應用程序,領域專家可以像安裝任何其他軟體一樣在自己的機器上安裝和運行。沒有 Docker,沒有雲端上傳,沒有 Python 要求。領域專家將其指向本地數據,通過視覺界面配置標注架構,並開始生成標注數據集。
結果:不是 3 名不完全理解數據的 ML 工程師標注數據,而是 30 名每天都在使用數據的領域專家進行標注。瓶頸消失了。需要 11 個月的項目需要 5 個月。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Why Domain Experts — Not ML Engineers — Should Own Data Labeling
The biggest quality bottleneck in enterprise AI isn't the tools — it's that the people with actual domain knowledge are locked out of the labeling process. Here's why that needs to change.

The Data Preparation Gap: Why ML Teams Spend 80% of Time Before Training Starts
Why the 60-80% data preparation statistic persists — fragmented tooling, domain expert exclusion, missing audit trails, and the structural underinvestment in purpose-built data prep tools.

AI Data Quality Is a Domain Problem, Not a Code Problem
Data quality in AI is fundamentally about domain knowledge, not engineering. Perfect pipelines produce garbage if labeling criteria are wrong. The best dedup can't tell which version to keep.