Back to blog
    為何你的 AI 專案停滯了——問題不在模型
    ai-projectsdata-preparationenterprise-aiml-pipelinesegment:enterprise

    為何你的 AI 專案停滯了——問題不在模型

    大多數失敗的 AI 專案將問題歸咎於模型,而真正的失敗在資料階段。以下是為何資料準備才是企業 AI 專案真正停滯的地方。

    EErtas Team·

    你的 AI 專案落後於計劃。團隊評估了三個基礎模型,對微調方法進行了基準測試,並設置了 GPU 基礎設施。但六個月後,你仍在清洗資料。模型還沒有看到一個訓練範例。

    這並不罕見。這是模式。根本原因不是模型、團隊或時間表——而是資料準備被當作一個初步步驟,而非專案的核心。

    模式

    以下是企業 AI 專案通常如何展開的:

    第一至二月:以模型為先的規劃。 團隊評估模型,比較架構,設置訓練基礎設施。令人興奮的、可見的進展。領導層看到模型如果有良好訓練資料可以做什麼的演示。

    第三月:資料現實檢查。 團隊轉向訓練資料,發現:文件有 12 種不同格式。40% 是掃描件,OCR 品質很差。沒有定義標注架構。需要標注資料的領域專家在其他專案上已排滿。沒有人知道資料集中有什麼個人識別資訊。

    第四至五月:資料消防。 為解析編寫了自訂腳本。設置了標注工具。領域專家在實際工作之餘擠出標注時間。品質問題浮現——OCR 輸出混亂,標注類別不明確,初始資料集太小。時間表推遲。

    第六月以後:決策點。 專案超出預算且落後於計劃。領導層詢問是否繼續或擱置。模型被責怪。「也許我們需要不同的方法。」實際上,資料從來沒有準備好。

    為何這種情況一再發生

    資料準備是無形的工作

    模型訓練產生可見的輸出:損失曲線、基準分數、生成的文字。資料準備產生……乾淨的資料。它不能很好地演示。很難顯示進展。領導層在狀態更新中看不出原始資料和準備好的資料之間的區別。

    這種可見性差距意味著資料準備得不到充分資源。團隊知道它很重要,但無法用獲取預算和關注的術語來闡明其價值。

    60 至 80% 的統計數字沒有被內化

    每個機器學習從業者都聽說過 60 至 80% 的機器學習專案時間用於資料準備。但專案計劃沒有反映這一點。一個六個月的 AI 專案,資料準備分配了一個月,這是在為失敗做計劃。

    這個統計數字持續存在,因為資料準備確實很難——不是因為團隊效率低下。文件多樣性、品質問題、標注複雜性、合規要求和領域專業知識需求都貢獻了真實的、不可簡化的工作量。

    領域專家被視為可選的

    知道法律條款是「有利的」還是醫療記錄表明特定情況的人,不是構建 AI 管線的人。領域專家被晚期引入,被給予他們無法使用的工具(基於 Python 的標注環境),並被期望將資料標注作為副業任務。

    結果:由機器學習工程師對領域特定類別進行猜測標注,或者在領域專家逐漸熟悉開發工具的同時時間表延長。

    工具碎片化

    典型的企業資料準備設置涉及 3 至 7 個斷開的工具:解析器、清洗器、標注器、品質評分器、匯出腳本。每個工具都有自己的介面、資料格式和學習曲線。工具之間的整合是自訂程式碼,當任何工具更新時就會中斷。

    這種碎片化成倍增加了工作量。工具之間的每個邊界都是資料可能丟失、格式可能被破壞、稽核追蹤中斷的地方。

    真正解決這個問題的方法

    1. 誠實地為資料準備做預算

    如果你的 AI 專案是六個月,為資料準備預算四個月。這不是悲觀——這是現實主義。如果資料準備好了,模型訓練、評估和部署將需要 1 至 2 個月。

    2. 為資料準備配備人員,而非只是建模

    資料準備需要與模型訓練不同的技能。你需要了解文件處理、資料品質、標注工作流程和合規的人——不只是能編寫 PyTorch 訓練循環的人。

    3. 從第一天起就讓領域專家參與

    不要在第四個月才引入心臟病學家。從一開始就讓領域專家參與——在定義標注架構、審查早期資料品質、建立使用場景的良好訓練資料是什麼樣子方面。

    這意味著給他們可以實際使用的工具。帶有視覺介面的桌面應用程式,而非 Jupyter 筆記本和命令列工具。

    4. 使用統一工具

    用一個處理整個管線的單一平台替換 3 至 7 個工具鏈。不是因為一個工具在每個單獨階段都更好——而是因為維護多個工具的整合成本超過了每個階段最佳工具的好處。

    5. 讓資料準備可見

    以報告模型性能的方式報告資料準備進度。攝取的文件數量、清洗完成百分比、標注進度、品質分數。讓工作對領導層可見,這樣它就能獲得所需的資源。

    令人不舒服的真相

    資料準備沒有捷徑。沒有任何模型——無論多大、架構多好或多昂貴——都能彌補糟糕的訓練資料。GPT-4 和 Claude 變得有能力,不是通過在平庸資料上運行聰明的算法。它們變得有能力,是因為訓練資料龐大、精心整理並嚴格進行了品質控制。

    企業 AI 遵循同樣的原則,只是規模更小。你的 AI 輸出品質受到訓練資料品質的限制。其他一切——模型選擇、超參數調整、基礎設施優化——都是次要的。

    如果你的 AI 專案停滯了,首先看資料。幾乎可以肯定,問題就在那裡。

    像 Ertas Data Suite 這樣的平台之所以存在,是因為這個問題是結構性的——碎片化的工具、無法訪問的介面和缺失的稽核追蹤造成了複合延遲。一個統一的、本地部署的平台,處理整個管線並讓領域專家控制標注,解決了根本原因,而非症狀。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading