為何你的 AI 專案停滯了——問題不在模型

你的 AI 專案落後於計劃。團隊評估了三個基礎模型，對微調方法進行了基準測試，並設置了 GPU 基礎設施。但六個月後，你仍在清洗資料。模型還沒有看到一個訓練範例。

這並不罕見。這是模式。根本原因不是模型、團隊或時間表——而是資料準備被當作一個初步步驟，而非專案的核心。

模式

以下是企業 AI 專案通常如何展開的：

第一至二月：以模型為先的規劃。 團隊評估模型，比較架構，設置訓練基礎設施。令人興奮的、可見的進展。領導層看到模型如果有良好訓練資料可以做什麼的演示。

第三月：資料現實檢查。 團隊轉向訓練資料，發現：文件有 12 種不同格式。40% 是掃描件，OCR 品質很差。沒有定義標注架構。需要標注資料的領域專家在其他專案上已排滿。沒有人知道資料集中有什麼個人識別資訊。

第四至五月：資料消防。 為解析編寫了自訂腳本。設置了標注工具。領域專家在實際工作之餘擠出標注時間。品質問題浮現——OCR 輸出混亂，標注類別不明確，初始資料集太小。時間表推遲。

第六月以後：決策點。 專案超出預算且落後於計劃。領導層詢問是否繼續或擱置。模型被責怪。「也許我們需要不同的方法。」實際上，資料從來沒有準備好。

為何這種情況一再發生

資料準備是無形的工作

模型訓練產生可見的輸出：損失曲線、基準分數、生成的文字。資料準備產生……乾淨的資料。它不能很好地演示。很難顯示進展。領導層在狀態更新中看不出原始資料和準備好的資料之間的區別。

這種可見性差距意味著資料準備得不到充分資源。團隊知道它很重要，但無法用獲取預算和關注的術語來闡明其價值。

60 至 80% 的統計數字沒有被內化

每個機器學習從業者都聽說過 60 至 80% 的機器學習專案時間用於資料準備。但專案計劃沒有反映這一點。一個六個月的 AI 專案，資料準備分配了一個月，這是在為失敗做計劃。

這個統計數字持續存在，因為資料準備確實很難——不是因為團隊效率低下。文件多樣性、品質問題、標注複雜性、合規要求和領域專業知識需求都貢獻了真實的、不可簡化的工作量。

領域專家被視為可選的

知道法律條款是「有利的」還是醫療記錄表明特定情況的人，不是構建 AI 管線的人。領域專家被晚期引入，被給予他們無法使用的工具（基於 Python 的標注環境），並被期望將資料標注作為副業任務。

結果：由機器學習工程師對領域特定類別進行猜測標注，或者在領域專家逐漸熟悉開發工具的同時時間表延長。

工具碎片化

典型的企業資料準備設置涉及 3 至 7 個斷開的工具：解析器、清洗器、標注器、品質評分器、匯出腳本。每個工具都有自己的介面、資料格式和學習曲線。工具之間的整合是自訂程式碼，當任何工具更新時就會中斷。

這種碎片化成倍增加了工作量。工具之間的每個邊界都是資料可能丟失、格式可能被破壞、稽核追蹤中斷的地方。

真正解決這個問題的方法

1. 誠實地為資料準備做預算

如果你的 AI 專案是六個月，為資料準備預算四個月。這不是悲觀——這是現實主義。如果資料準備好了，模型訓練、評估和部署將需要 1 至 2 個月。

2. 為資料準備配備人員，而非只是建模

資料準備需要與模型訓練不同的技能。你需要了解文件處理、資料品質、標注工作流程和合規的人——不只是能編寫 PyTorch 訓練循環的人。

3. 從第一天起就讓領域專家參與

不要在第四個月才引入心臟病學家。從一開始就讓領域專家參與——在定義標注架構、審查早期資料品質、建立使用場景的良好訓練資料是什麼樣子方面。

這意味著給他們可以實際使用的工具。帶有視覺介面的桌面應用程式，而非 Jupyter 筆記本和命令列工具。

4. 使用統一工具

用一個處理整個管線的單一平台替換 3 至 7 個工具鏈。不是因為一個工具在每個單獨階段都更好——而是因為維護多個工具的整合成本超過了每個階段最佳工具的好處。

5. 讓資料準備可見

以報告模型性能的方式報告資料準備進度。攝取的文件數量、清洗完成百分比、標注進度、品質分數。讓工作對領導層可見，這樣它就能獲得所需的資源。

令人不舒服的真相

資料準備沒有捷徑。沒有任何模型——無論多大、架構多好或多昂貴——都能彌補糟糕的訓練資料。GPT-4 和 Claude 變得有能力，不是通過在平庸資料上運行聰明的算法。它們變得有能力，是因為訓練資料龐大、精心整理並嚴格進行了品質控制。

企業 AI 遵循同樣的原則，只是規模更小。你的 AI 輸出品質受到訓練資料品質的限制。其他一切——模型選擇、超參數調整、基礎設施優化——都是次要的。

如果你的 AI 專案停滯了，首先看資料。幾乎可以肯定，問題就在那裡。

像 Ertas Data Suite 這樣的平台之所以存在，是因為這個問題是結構性的——碎片化的工具、無法訪問的介面和缺失的稽核追蹤造成了複合延遲。一個統一的、本地部署的平台，處理整個管線並讓領域專家控制標注，解決了根本原因，而非症狀。