Back to blog
    工具熵:為何企業 AI 資料管線持續變得更複雜
    enterprise-aidata-pipelinethought-leadershipmlopstool-sprawlsegment:enterprise

    工具熵:為何企業 AI 資料管線持續變得更複雜

    企業 AI 團隊從 2–3 個工具開始,最終以 7 個收場。這不是計畫不周——這是可預測的模式。了解工具熵是打破它的第一步。

    EErtas Team·

    企業 AI 中有一個模式反覆出現,其一致性值得為其命名。一個團隊以兩到三個工具開始資料準備專案。十二個月內,他們有了七個。每次增加個別來看都是合理的。累積的結果是一個維護昂貴、難以更改、且對任何不在場見證每次漸進決策的人都不透明的系統。

    我們稱之為工具熵:ML 資料管線隨時間積累工具的自然傾向,因為每個新需求在現有技術棧中都找不到解決方案。

    理解這個模式——為何發生、如何複合,以及需要什麼來打破它——無論您是在開始一個新的資料準備專案,還是試圖整理一個現有的,都是有用的。

    如何開始

    初始技術棧通常很小,並且有道理。一個團隊確定了核心需求:解析文件、標注它們、生成訓練資料。他們為每個階段選擇最佳的可用工具:一個文件解析器、一個標注平台,也許還有一個格式轉換腳本。

    兩個工具。如果您將轉換腳本算作工具(您應該這樣做),則是三個。

    這個初始技術棧處理了試驗專案。文件是解析器處理良好的格式。標注任務是標注平台設計用於的任務。一切連接,黏合代碼很簡單,團隊發布了第一個模型。

    然後真正的資料到來了。

    積累模式

    真正的資料與試驗資料從來不完全相同。它有更多格式,有更多邊緣案例,需要第一個工具不能很好支援的標注類型。每個空缺都需要一個決定:調整現有工具以處理新需求,還是添加一個本地處理它的工具。

    在實踐中,答案幾乎總是:添加工具。調整現有工具需要深入了解它們,可能需要 fork 或打補丁,並承擔修改的維護責任。短期來看,添加新工具更快。

    以下是典型的積累序列:

    第 1–3 個月:初始技術棧

    • Docling 用於 PDF 解析(處理試驗資料集中乾淨的數字 PDF)
    • Label Studio 用於文本標注
    • 一個將 Docling 輸出轉換為 Label Studio 導入格式的 Python 腳本

    三個組件。團隊發布了試驗版。

    第 4 個月:第一次擴展 新一批文件到來。有些是掃描 PDF。Docling 可以處理它們,但 OCR 品質很差。團隊使用 Tesseract 或商業替代品添加了 OCR 前處理步驟。

    四個組件。

    第 5 個月:品質問題 標注後的資料集正在訓練第一個模型。效能令人失望。調查發現標籤不一致——不同的標注者對同一類別的使用方式不同。團隊向管線中添加 Cleanlab,以在訓練前標記不一致的標籤。

    五個組件。現在需要一個新的轉換步驟,將 Label Studio 的標注格式轉換為 Cleanlab 的預期輸入格式。這是第六個組件。

    第 7 個月:資料量問題 團隊需要比真實文件存檔對稀有類別提供的更多訓練樣本。他們添加 Distilabel 來為代表性不足的案例生成合成訓練資料。

    七個組件。Distilabel 的輸出格式與 Label Studio 不同。又一個新的轉換腳本。

    八個組件。

    第 9 個月:CV 需求 第二個使用場景需要標注工程圖紙——圖像,而非文本。Label Studio 支援圖像標注,但團隊聽說 CVAT 更適合這項工作。他們為 CV 軌道添加了 CVAT。

    九個組件。現在有兩個獨立的標注平台,沒有共享的用戶管理、沒有共享的標注模式註冊表、沒有共享的審查佇列。

    第 12 個月:合規稽核 一次內部稽核要求記錄整個管線的資料血緣。團隊無法提供這份記錄,因為沒有任何一個系統對每個訓練樣本在所有九個組件中發生的情況有可見性。他們花了三週時間構建一份回顧性血緣報告。他們添加了資料版本控制工具(DVC 或類似工具)用於後續工作。

    十個組件。

    這不是假設。這是我們在多個企業團隊中觀察到的模式的綜合。

    為何每步都是合理的

    工具熵如此難以中斷的原因是每次添加個別來看都是可辯護的。

    當掃描 PDF 到來,OCR 品質很差時,團隊本可以嘗試改善 Docling 在掃描文件上的效能——但這需要以他們沒有的深度了解 Docling 的內部,而時間壓力是真實存在的。添加一個預處理步驟只花了半天。

    當標籤不一致出現時,添加 Cleanlab 是正確的決定。它解決了一個真實的品質問題,而替代方案(大規模手動審查、建立自訂一致性檢查)更糟。

    當資料量問題出現時,生成合成資料是正確的方法。Distilabel 是一個有能力的工具。添加它是有意義的。

    在這個序列的任何時刻,團隊都沒有做出糟糕的決定。他們每次都做出了局部最優的決定。全局次優的結果——十個鬆散連接的組件,沒有共享的稽核追蹤——源於個別合理的選擇。

    這就是工具熵如此難以管理的原因。您無法通過做出更好的個別決定來防止它。您只能通過早期識別模式並選擇更廣泛範圍的工具,或在技術棧增長時定期進行整合來防止它。

    複合問題

    一旦管線積累了七個或更多工具,幾個問題以在性質上與三個工具的技術棧截然不同的方式複合。

    維護負擔超線性增長。 每次工具更新都需要評估:是否有任何變化會破壞將其連接到相鄰工具的黏合代碼?對於兩個工具,這是一個可管理的每週檢查。對於十個工具,每個都有自己的發布節奏,這成為了一個重大的持續工程投入。據報告,在成熟的碎片化技術棧中,團隊在管線維護上花費了 10–20% 的總 ML 工程能力。

    稽核追蹤空缺變得普遍。 有十個工具時,完整的血緣追蹤需要來自十個系統的日誌。其中一些系統以不同粒度記錄。有些不記錄您需要的內容。重建特定訓練樣本發生的事情,需要對十種不同的日誌格式進行考古。在受監管的行業中,這對於生產 AI 系統而言是不可接受的情況。

    新團隊成員入職變得昂貴。 加入團隊的新 ML 工程師需要在安全進行更改之前了解完整的技術棧。十個工具意味著十套文件、十個配置系統、十個潛在的失敗模式。在十工具技術棧上,新工程師的入職時間可能需要三到四週。在兩工具技術棧上,只需幾天。

    整合脆弱性隨技術棧深度增加。 鏈中的工具越多,可能失敗的整合點就越多。第三步中的一個錯誤可能直到第八步產生意外輸出時才會顯現。跨工具邊界的調試比在單一系統中調試困難得多,而潛在失敗位置的數量隨著每次工具添加而增加。

    「只需添加工具」的反射隨時間加速。 這也許是最有害的影響。一旦團隊習慣了添加工具來解決新需求,它就成為對每個新問題的預設反應。評估現有工具是否可以擴展的認知開銷高於立即添加新東西的工作量。技術棧變得越大,增長越快。

    為何一旦陷入就難以整合

    對十工具技術棧的正確回應,從抽象角度來看,是整合:遷移到更廣泛範圍的更少工具,這些工具本地處理更多管線。

    在實踐中,這比聽起來難得多。

    遷移成本。 技術棧中的每個工具都有以自己格式存儲的資料。遷移到新工具需要轉換所有現有資料,驗證轉換後的資料是等效的,並可能重新運行處理步驟。對大型資料集,這是幾個月的工作。

    沉沒成本和團隊熟悉度。 團隊已投入大量時間學習現有工具。當前技術棧中嵌入了真正的專業知識。丟棄這些專業知識以採用新工具感覺是一種浪費,而這種阻力並非不合理——熟悉工具具有真正的生產力價值。

    部分能力差距。 整合工具——旨在替換多個專業工具的工具——通常與每個類別中最好的個別工具相比具有一些能力差距。Docling 在某些 PDF 解析任務上比通用文件處理器更好。Label Studio 比大多數整合平台有更多的標注任務類型。團隊可以理解地不願意接受這些能力取捨。

    組織慣性。 管線的不同部分可能由不同的人員或團隊負責。整合需要跨團隊的協議,這需要可能無法獲得的組織協調。

    結果是大多數十工具技術棧保持十個工具,或增長到十二個,而不是整合為四個。

    打破循環的方法

    有三種情況下企業團隊成功打破工具熵循環。

    新專案,白板。 當一個團隊開始一個真正新的資料準備專案——新的使用場景、新的文件類型、新的團隊——他們有機會從更廣泛範圍的工具開始,而不是漸進地建立碎片化的技術棧。關鍵是早期識別積累模式,選擇前期範圍而非漸進式添加。

    合規危機。 當監管稽核或合規審查揭示了碎片化技術棧中稽核追蹤空缺的成本時,組織有時會獲得投資整合的組織授權。合規成本是迫使因素,而單純的維護成本往往不是。

    團隊更替或擴展壓力。 當大量新員工加入,現有技術棧的入職成本變得可見時,或者當一個團隊嘗試將現有管線擴展到新的文件量,整合點的脆弱性變得嚴峻時,整合從經濟上變得有吸引力。

    統一管線替代方案

    統一資料準備環境的論據——一個單一工具,處理導入、清洗、標注、增強和匯出——不在於它在每個單獨任務上都比最好的專業工具更好。它不會。Docling 單獨處理某些 PDF 邊緣案例可能比任何整合工具更好。Label Studio 的配置靈活性可能超過任何固定模式的標注介面。

    論點是整合稅是真實的,它隨技術棧大小增長,在某個點上,維護成本和稽核追蹤空缺以及領域專家排除和調試複雜性超過了使用專業工具的能力收益。

    那個交叉點在哪裡取決於團隊規模、合規要求、文件多樣性以及標記模式更改的頻率。對於穩定模式和簡單文件的非受監管環境中的小團隊,碎片化的技術棧可能無限期地可以接受。對於受監管的行業、複雜的文件存檔以及沒有大型 ML 工程能力的團隊,交叉點比大多數團隊預期的更早到來。

    我們交談的一位筆記 AI 新創公司創始人已經經歷了這個循環:

    「資料是最大的問題。」

    不是在專案結束時。不是在模型訓練後。而是在任何事情可以開始之前。他們為處理問題而組裝的技術棧本身就是問題的一部分。


    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    相關閱讀

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading