
拼接 Docling、Label Studio 和 Cleanlab 的隱藏成本
大多數企業 AI 團隊使用 3-7 個工具進行資料準備。單個工具各有優點。集成才是問題所在——其成本比大多數團隊意識到的要高。
標準企業資料準備堆疊中的每個工具在其擅長的方面都確實很出色。由 IBM 研究院開發的 Docling 是一個嚴肅的文件解析庫,在處理複雜 PDF 和表格提取方面表現出色。Label Studio 是一個有能力、可擴展的標注平台,支持廣泛的任務類型。Cleanlab 是一個研究充分的資料品質庫,具有複雜的標籤錯誤檢測功能。Distilabel 提供了一個用於合成資料生成的靈活管道界面。
個別工具不是問題。集成才是問題——它比大多數團隊在深陷其中之前意識到的要貴得多。
典型的企業堆疊
在討論成本之前,先要精確了解典型的分散堆疊實際上是什麼樣的。
在 2025 或 2026 年開始企業 AI 資料準備項目的團隊,組裝的東西大概是這樣的:
文件攝取:Docling(IBM 研究院) 處理 PDF 解析、表格提取以及轉換為 JSON 或 Markdown 等結構化格式。技術上很強——特別是對於研究和技術文件。需要 Python,作為庫或命令列工具運行。沒有 GUI、沒有標注能力、沒有品質管理。輸出需要去某個地方的結構化文字。
資料標注:Label Studio 通過 Docker 自主托管,作為網路應用程式部署。通過基於配置的界面支持文字分類、命名實體識別、圖像標注和其他任務類型。領域專家和 ML 工程師通過瀏覽器訪問它。功能集強大,社區活躍,文件完善。需要伺服器運行、Docker 安裝維護,以及一些工程努力來配置標注架構。
資料品質:Cleanlab 一個用於識別資料集中標籤錯誤和品質問題的 Python 庫。實現了可以大規模檢測標籤不一致性的置信學習算法。需要 Python 能力才能操作——沒有 GUI、沒有儀表板、沒有點擊式工作流。輸出通常是工程師審查和處理的標記示例的資料框。
合成資料生成:Distilabel(Argilla) 一個面向管道的框架,用於使用語言模型生成合成訓練資料。為熟悉用 Python 編寫管道配置的 ML 工程師設計。沒有 GUI。輸出為標準格式,但每個用例需要自訂配置。
計算機視覺標注:CVAT 對於處理圖像或視頻的團隊,CVAT 處理 Label Studio 覆蓋不那麼好的標注工作流。添加了另一個具有自己部署、自己用戶管理、自己資料格式的工具。
這是五個工具。一些團隊添加更多——第六個用於格式轉換,第七個用於資料版本控制。關鍵是,它們都不是為了協同工作而設計的。每個都以自己的格式產生輸出。每個都需要自己的設置。沒有任何一個與其他任何一個共享狀態、架構或審計追蹤。
每個工具的優點
誠實地評價各個工具是值得的,因為批評特別是關於集成,而非能力。
Docling 對於解析複雜的科學和技術 PDF 確實非常出色。IBM 研究院團隊在表格檢測、版面分析和格式轉換方面投入了認真的工程努力。對於解析學術論文或結構化技術報告的團隊,它表現非常好。
Label Studio 的標注配置系統靈活且富有表達力。您可以在沒有太多困難的情況下為不尋常的任務類型構建標 注界面。開源社區貢獻了大量示例配置庫。如果您有能夠配置和維護它的 ML 工程師,它是一個有能力的平台。
Cleanlab 的置信學習算法是自動標籤錯誤檢測的最先進技術。在基準比較中,它一貫識別人工審查員遺漏的標注錯誤。對於具有 Python 專業知識和乾淨資料管道的團隊,它增加了真實價值。
這些都是由有能力的團隊為真實問題構建的工具。分散成本不是關於它們的個別品質。而是當您需要所有這些工具作為一個連貫系統運作時會發生什麼。
集成問題
當您連接這些工具時,您立即遇到一組它們各自都無法解決的問題。
沒有共享資料格式。 Docling 輸出 Markdown 或 JSON。Label Studio 使用自己的標注 JSON 架構。Cleanlab 期望標籤的 NumPy 陣列或 pandas DataFrame。Distilabel 有自己的管道格式。在這些工具中的任意兩個之間移動資料都需要一個轉換步驟——要麼是您編寫和維護的腳本,要麼是手動匯出導入循環。
這個轉換代碼編寫起來並不複雜。維護起來才是複雜的。每次工具更新其輸出架構時,您的轉換代碼可能會靜默地崩潰。每次您在 Label Studio 中更改標注架構時,您需要更新向 Cleanlab 輸入資料的腳本。每種您需要支持的新文件格式都需要更新 Docling 解析步驟,以及可能更新每 個下游轉換。
沒有共享審計追蹤。 如果合規審計員要求您演示特定的訓練示例來自特定的源文件、由特定的標注員審查,並在包含在訓練集中之前通過了特定的品質閾值——您無法用統一報告回答這個問題。您必須從五個獨立系統中的日誌重建答案,假設日誌足夠詳細。
這不是假設情況。HIPAA 審計、GDPR 合規審查、歐盟 AI 法案第 10 條義務和內部資訊安全審計都需要資料來源文件。分散堆疊使其生產昂貴,且不可能實時生產。
沒有共享架構。 當您的標記架構改變——一個類別被重命名、添加了新的實體類型、一個分類被拆分為兩個——您需要在 Label Studio 的標注界面中做出這個更改,更新依賴於架構的 Cleanlab 品質檢查,更新引用類別名稱的任何 Distilabel 提示,並更新將標籤值映射到訓練格式的匯出腳本。本應花一個下午的架構更改需要一周。
跨工具的依賴管理。 每個工具都有自己的依賴鏈。Docling、Cleanlab 和 Distilabel 都是 Python 庫,具有各自的依賴集。它們可能需要不同的 Python 版本、共享依賴的不同版本,或衝突的傳遞要求。在共享環境中管理這些是一個已知的痛點——標準答案是單獨的虛擬環境或容器,這增加了運營開銷。
隱藏成本
讓我們嘗試使成本具體化。這些是基於與 ML 團隊對話的估算,不是發票——但它們基於真實模式。
初始設置成本: 讓五工具堆疊配置、連接並為新項目產生可用輸出,通常需要資深 ML 工程師一到三週的時間。這包括部署 Label Studio、為 Docling 編寫初始解析腳本、在 Cleanlab 中配置品質管道,以及編寫連接它們的粘合代碼。以資深 ML 工程師 $150-200/小時的全額成本計算,這是 $12,000-$24,000,在標記一個示例之前。
持續維護成本: 堆疊運行後,需要持續維護。需要評估工具更新,當架構更改時需要更新粘合代碼,部署問題需要調試。根據團隊報告,對於中等活躍的資料準備工作流,這每週需要 4-8 小時。這是每年 $30,000-$60,000 的資深工程時間,花在管道上而非模型開發。
調試成本: 當您訓練的模型意外地表現不佳,您需要將問題追溯到資料問題時,跨五個工具邊界調試比在單一系統中調試困難得多。團隊報告花費數天在本應是數小時的調查上。單一資料品質事件可能需要 20-40 小時的工程時間來找到根本原因。
合規文件成本: 如果您的組織需要為監管審計生成資料來源文件,從五個獨立系統中的日誌組裝該文件可能需要數週。我們從團隊那裡聽說,必須為單一審計生產合規文件而奉獻整個工程月。
領域專家排斥成本: 因為這個堆疊中的每個工具都需要 ML 工程來配置和操作,領域專家無法直接參與標注過程而不需要大量支持。這意味著 ML 工程師花時間在他們最不擅長的標注工作上,而且因為具有領域知識的人不在循環中,標注品質會受到影響。這個成本是真實的,但更難量化——它表現為額外的標注迭代、更低的標籤品質和更慢的模型收斂。
分散堆疊何時是可接受的
分散堆疊並不總是錯誤的選擇。在某些情況下它是合理的。
如果您的團隊有能夠吸收集成開銷的專門 ML 工程能力,單個工具是有能力的,成本是可管理的。擁有五個或更多專門工程師的研究團隊和大型企業 ML 平台通常成功運行這些堆疊。
如果您的資料準備需求是穩定的——相同的文件格式、相同的標注架構、相同的品質要求——集成開銷是一次性成本而不是反復出現的成本。穩定的工作流將初始設置成本分攤到許多項目中。
如果合規要求不嚴格——雲端工具是允許的,不需要審計追蹤文件——許多合規特定成本就消失了。集成成本仍然存在,但更低。
如果不需要領域專家參與——您的標注任務可以由 ML 工程師或眾包標注員處理——領域專家排斥成本就不那麼相關了。
何時成為責任
當以下情況發生時,分散堆疊成為真正的責任:
- 您的文件存檔跨越具有不同解析要求的多種文件格式
- 您的標注架構隨著您對任務了解更多而演變
- 合規要求跨完整管道的統一資料來源
- 領域專家需要在沒有 ML 工程支持的情況下參與標注
- 您的團隊 ML 工程能力有限,需要花在模型開發上,而非資料管道
- 您在雲端工具不允許的受監管環境中運營
這些不是邊緣案例。它們描述了受監管行業中大多數企業 AI 部署。對於這些團隊,分散堆疊不只是不方便——它實際上阻礙了進展。
一家設備端 AI 公司的 CTO 精確地描述了期望:
「讓資料清理過程顯著更容易,即使只有 80% 的自動化,也將是一個巨大的推動力。」
「80% 自動化」的框架是重要的。團隊不是要求魔法。他們是要求不花費 40% 的 ML 工程能力來維護本應已經連接起來的工具之間的連接。
Your data is the bottleneck — not your models.
Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.
相關閱讀
- 27 個企業 AI 團隊告訴我們的資料準備問題 — 關於企業 AI 團隊正在導航的分散工具景觀的主要研究
- 工具熵:為什麼企業 AI 資料管道不斷增加複雜性 — 兩工具堆疊成為七工具堆疊的可預測模式
- 您的 ML 工程師不應該做這個 — 分散工具創造的領域專家排斥問題
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

What 27 Enterprise AI Teams Told Us About Their Data Prep Problem
Based on 27 discovery calls across regulated industries, one problem kept surfacing before fine-tuning, RAG, or agents could even begin: data preparation. Here's what we heard.

Enterprise AI Projects Fail at the Data Stage — Not the Model Stage
65% of enterprise AI deployments are stalling. The conventional wisdom blames model selection or infrastructure. The real reason is almost always the same: data preparation was underinvested.

What Is AI Data Readiness? The Assessment Every Enterprise Skips
Most enterprises jump straight to model selection without assessing whether their data is actually usable for AI. Here's what AI data readiness means and how to assess it.