Back to blog
    AI 資料成熟度的 5 個層次(以及大多數企業卡關的地方)
    ai-data-maturityenterprise-aidata-governanceassessmentsegment:enterprise

    AI 資料成熟度的 5 個層次(以及大多數企業卡關的地方)

    AI 資料就緒的實用成熟度模型——從原始非結構化檔案到受管理、版本化、符合稽核要求的資料集。大多數企業卡在第 1-2 層。

    EErtas Team·

    並非所有企業資料對 AI 的就緒程度都相同。有些組織擁有乾淨、標注過、版本化的資料集,並有完整的稽核追蹤。大多數組織則是在檔案伺服器上堆了幾 TB 的 PDF。

    這個成熟度模型提供了一個框架,幫助您評估組織目前所處的位置,以及晉升至下一層所需要做的事。根據企業 AI 導入的實際規律,大多數組織卡在第 1 層或第 2 層——而從第 2 層跳升至第 3 層,是專案最常停滯的地方。

    第 1 層:原始

    狀態:非結構化檔案存放在儲存空間中。PDF、Word 文件、電子郵件、掃描紙本、圖像、試算表——多年或數十年累積,沒有任何針對 AI 的整理。

    特徵

    • 資料存放在檔案伺服器、SharePoint、電子郵件封存,或實體儲存空間
    • 沒有關於存在哪些資料、格式為何、狀態如何的清單
    • 格式多樣性極高(跨部門有數十種檔案類型)
    • 各儲存位置之間有大量重複
    • 尚未進行任何品質評估

    此層次的 AI 能力:無。原始資料無法用於模型訓練。

    大多數企業擁有的:大量的第 1 層資料。IBM/MIT 估計 80-90% 的企業資料是非結構化的,主要指的就是這個層次。

    晉升所需:資料清查和格式評估。在處理資料之前,您需要先知道自己擁有什麼。

    第 2 層:已建立目錄

    狀態:資料已被盤點。您知道存在哪些類型的文件、大致數量、格式,以及存放位置。但內容尚未被提取或處理。

    特徵

    • 資料清單已存在(文件類型、數量、位置)
    • 部分元資料可取得(日期、作者、檔案大小)
    • 格式分布已被掌握(X% PDF、Y% Excel、Z% 掃描件)
    • 資料品質已抽樣但未系統性評估
    • 尚未進行任何提取或解析

    此層次的 AI 能力:最低限度。您可以做出哪些資料應優先處理的明智決策,但還無法訓練模型。

    大多數企業在初步評估後達到的狀態:第 2 層。他們知道自己有什麼,但尚未開始處理。

    晉升所需:擷取管道。OCR、版面偵測、表格提取、格式解析——將非結構化檔案轉換為已提取、可搜尋的內容。

    第 3 層:結構化

    狀態:內容已從原始檔案中提取。文字已解析,表格已提取,圖像已建立目錄。資料可被搜尋和處理——但尚未針對特定 AI 使用案例進行標注或標籤。

    特徵

    • 文件已通過 OCR 和解析進行擷取
    • 文字已提取且可搜尋
    • 表格已識別並結構化
    • 已執行基本清理(去重、品質評分)
    • 可能已執行 PII/PHI 偵測
    • 資料已採用可處理的格式(JSON、文字、結構化記錄)

    此層次的 AI 能力:有限。您可以使用提取的文字建立基本的搜尋/擷取系統(RAG)。但監督式模型(分類、提取、生成)需要標注資料——而第 3 層並不具備。

    第 3 層陷阱:許多團隊止步於此,因為基本的 RAG 給人一種進展中的錯覺。但基於未整理、未標注資料的 RAG,有著標注過、微調過的模型所沒有的品質上限。

    晉升所需:標注基礎設施。領域專家需要工具來針對 AI 使用案例,為結構化資料標注類別、實體和品質評估。

    第 4 層:已標注

    狀態:結構化資料已由領域專家標注,附上特定 AI 應用所需的類別、實體或數值。訓練資料集存在,可用於微調或訓練模型。

    特徵

    • 已為目標 AI 使用案例定義標注模式
    • 領域專家(非僅 ML 工程師)已標注資料
    • 已測量標注者間一致性
    • 已執行品質審查
    • 訓練、驗證和測試分割存在
    • 匯出格式符合模型要求(JSONL、COCO 等)

    此層次的 AI 能力:強大。您可以微調模型、訓練分類器,並建立提取管道。標注資料是使特定領域 AI 成為可能的訓練信號。

    大多數 AI 專案所需:第 4 層資料。這是大多數監督式 AI 應用的最低可行層次。

    晉升所需:治理基礎設施。版本控制、稽核追蹤、合規文件,以及持續的維護流程。

    第 5 層:受治理

    狀態:標注資料集已版本化、可稽核,並持續維護。從來源到訓練資料,完整的資料血緣存在。合規文件自動生成。組織將 AI 訓練資料視為受管理資產,而非一次性的專案產出。

    特徵

    • 資料集版本化,具備差異比較能力(版本間的變更)
    • 完整的資料血緣(任何訓練記錄都可追溯至來源文件)
    • 每次轉換和標注決策的稽核追蹤
    • 偏差檢查已記錄且可重現
    • 合規文件可匯出(EU AI Act、HIPAA、GDPR)
    • 持續監控資料漂移和品質退化
    • 定義了資料集更新和重新訓練觸發條件的流程

    此層次的 AI 能力:完整。您可以有信心地部署 AI、展示合規性、通過追溯訓練資料來調查問題,並以更新的資料持續改善模型。

    受監管行業所需:第 5 層。EU AI Act、HIPAA 和 GDPR 共同要求這裡描述的治理能力。醫療、法律、金融和政府行業的企業,不能在低於此層次的情況下負責任地部署高風險 AI。

    大多數企業卡關的地方

    第 1 層 → 第 2 層的轉換(評估)

    阻礙:沒有人負責評估。責任落在 IT、資料工程和業務單位之間的灰色地帶。 解決方案:指派一位資料就緒負責人——一個對清單負責的人。

    第 2 層 → 第 3 層的轉換(擷取)

    阻礙:格式多樣性。企業在各部門擁有數十種文件類型,沒有任何單一解析工具能全部處理。 解決方案:從一個使用案例的一種文件類型開始。不要試圖一次擷取所有內容。

    第 3 層 → 第 4 層的轉換(標注)

    阻礙:領域專家的可用性。能夠標注資料的人(醫生、律師、工程師、會計師)有自己的正職工作。標注工具需要 Python。ML 工程師成為瓶頸。 解決方案:使用領域專家可使用的標注工具——具有無程式碼介面的桌面應用程式。分配專屬的標注時間(這和任何其他專案任務同樣重要)。

    第 4 層 → 第 5 層的轉換(治理)

    阻礙:將資料準備視為一次性活動。團隊建立資料集、訓練模型,然後繼續前進——沒有建立版本控制、監控或更新流程。 解決方案:從一開始就將治理納入管道架構。使用能自動生成稽核追蹤和版本歷史的平台。

    評估您的層次

    問這些問題:

    1. 您知道自己擁有哪些資料嗎?→ 如果不知道:第 1 層
    2. 資料是否已被解析和提取?→ 如果否:第 2 層
    3. 是否已執行特定領域的標注?→ 如果否:第 3 層
    4. 資料集是否已版本化且可稽核?→ 如果否:第 4 層
    5. 以上皆是?→ 第 5 層

    大多數企業發現,他們大部分的資料處於第 1-2 層。從第 4-5 層的路徑,正是像 Ertas Data Suite 這樣的資料準備平台所為之建構的——將原始企業資料通過完整管道轉化為受治理、AI 就緒的資料集,每個步驟都有記錄,每條血緣鏈都有保存。

    晉升每個層次都需要時間和投入。但另一種選擇——在未準備好的資料上建構 AI——會產生無法運作、無法調試、無法通過監管審查的模型。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading