AI 資料成熟度的 5 個層次（以及大多數企業卡關的地方）

並非所有企業資料對 AI 的就緒程度都相同。有些組織擁有乾淨、標注過、版本化的資料集，並有完整的稽核追蹤。大多數組織則是在檔案伺服器上堆了幾 TB 的 PDF。

這個成熟度模型提供了一個框架，幫助您評估組織目前所處的位置，以及晉升至下一層所需要做的事。根據企業 AI 導入的實際規律，大多數組織卡在第 1 層或第 2 層——而從第 2 層跳升至第 3 層，是專案最常停滯的地方。

第 1 層：原始

狀態：非結構化檔案存放在儲存空間中。PDF、Word 文件、電子郵件、掃描紙本、圖像、試算表——多年或數十年累積，沒有任何針對 AI 的整理。

特徵：

資料存放在檔案伺服器、SharePoint、電子郵件封存，或實體儲存空間
沒有關於存在哪些資料、格式為何、狀態如何的清單
格式多樣性極高（跨部門有數十種檔案類型）
各儲存位置之間有大量重複
尚未進行任何品質評估

此層次的 AI 能力：無。原始資料無法用於模型訓練。

大多數企業擁有的：大量的第 1 層資料。IBM/MIT 估計 80-90% 的企業資料是非結構化的，主要指的就是這個層次。

晉升所需：資料清查和格式評估。在處理資料之前，您需要先知道自己擁有什麼。

第 2 層：已建立目錄

狀態：資料已被盤點。您知道存在哪些類型的文件、大致數量、格式，以及存放位置。但內容尚未被提取或處理。

特徵：

資料清單已存在（文件類型、數量、位置）
部分元資料可取得（日期、作者、檔案大小）
格式分布已被掌握（X% PDF、Y% Excel、Z% 掃描件）
資料品質已抽樣但未系統性評估
尚未進行任何提取或解析

此層次的 AI 能力：最低限度。您可以做出哪些資料應優先處理的明智決策，但還無法訓練模型。

大多數企業在初步評估後達到的狀態：第 2 層。他們知道自己有什麼，但尚未開始處理。

晉升所需：擷取管道。OCR、版面偵測、表格提取、格式解析——將非結構化檔案轉換為已提取、可搜尋的內容。

第 3 層：結構化

狀態：內容已從原始檔案中提取。文字已解析，表格已提取，圖像已建立目錄。資料可被搜尋和處理——但尚未針對特定 AI 使用案例進行標注或標籤。

特徵：

文件已通過 OCR 和解析進行擷取
文字已提取且可搜尋
表格已識別並結構化
已執行基本清理（去重、品質評分）
可能已執行 PII/PHI 偵測
資料已採用可處理的格式（JSON、文字、結構化記錄）

此層次的 AI 能力：有限。您可以使用提取的文字建立基本的搜尋/擷取系統（RAG）。但監督式模型（分類、提取、生成）需要標注資料——而第 3 層並不具備。

第 3 層陷阱：許多團隊止步於此，因為基本的 RAG 給人一種進展中的錯覺。但基於未整理、未標注資料的 RAG，有著標注過、微調過的模型所沒有的品質上限。

晉升所需：標注基礎設施。領域專家需要工具來針對 AI 使用案例，為結構化資料標注類別、實體和品質評估。

第 4 層：已標注

狀態：結構化資料已由領域專家標注，附上特定 AI 應用所需的類別、實體或數值。訓練資料集存在，可用於微調或訓練模型。

特徵：

已為目標 AI 使用案例定義標注模式
領域專家（非僅 ML 工程師）已標注資料
已測量標注者間一致性
已執行品質審查
訓練、驗證和測試分割存在
匯出格式符合模型要求（JSONL、COCO 等）

此層次的 AI 能力：強大。您可以微調模型、訓練分類器，並建立提取管道。標注資料是使特定領域 AI 成為可能的訓練信號。

大多數 AI 專案所需：第 4 層資料。這是大多數監督式 AI 應用的最低可行層次。

晉升所需：治理基礎設施。版本控制、稽核追蹤、合規文件，以及持續的維護流程。

第 5 層：受治理

狀態：標注資料集已版本化、可稽核，並持續維護。從來源到訓練資料，完整的資料血緣存在。合規文件自動生成。組織將 AI 訓練資料視為受管理資產，而非一次性的專案產出。

特徵：

資料集版本化，具備差異比較能力（版本間的變更）
完整的資料血緣（任何訓練記錄都可追溯至來源文件）
每次轉換和標注決策的稽核追蹤
偏差檢查已記錄且可重現
合規文件可匯出（EU AI Act、HIPAA、GDPR）
持續監控資料漂移和品質退化
定義了資料集更新和重新訓練觸發條件的流程

此層次的 AI 能力：完整。您可以有信心地部署 AI、展示合規性、通過追溯訓練資料來調查問題，並以更新的資料持續改善模型。

受監管行業所需：第 5 層。EU AI Act、HIPAA 和 GDPR 共同要求這裡描述的治理能力。醫療、法律、金融和政府行業的企業，不能在低於此層次的情況下負責任地部署高風險 AI。

大多數企業卡關的地方

第 1 層 → 第 2 層的轉換（評估）

阻礙：沒有人負責評估。責任落在 IT、資料工程和業務單位之間的灰色地帶。 解決方案：指派一位資料就緒負責人——一個對清單負責的人。

第 2 層 → 第 3 層的轉換（擷取）

阻礙：格式多樣性。企業在各部門擁有數十種文件類型，沒有任何單一解析工具能全部處理。 解決方案：從一個使用案例的一種文件類型開始。不要試圖一次擷取所有內容。

第 3 層 → 第 4 層的轉換（標注）

阻礙：領域專家的可用性。能夠標注資料的人（醫生、律師、工程師、會計師）有自己的正職工作。標注工具需要 Python。ML 工程師成為瓶頸。 解決方案：使用領域專家可使用的標注工具——具有無程式碼介面的桌面應用程式。分配專屬的標注時間（這和任何其他專案任務同樣重要）。

第 4 層 → 第 5 層的轉換（治理）

阻礙：將資料準備視為一次性活動。團隊建立資料集、訓練模型，然後繼續前進——沒有建立版本控制、監控或更新流程。 解決方案：從一開始就將治理納入管道架構。使用能自動生成稽核追蹤和版本歷史的平台。

評估您的層次

問這些問題：

您知道自己擁有哪些資料嗎？→ 如果不知道：第 1 層
資料是否已被解析和提取？→ 如果否：第 2 層
是否已執行特定領域的標注？→ 如果否：第 3 層
資料集是否已版本化且可稽核？→ 如果否：第 4 層
以上皆是？→ 第 5 層

大多數企業發現，他們大部分的資料處於第 1-2 層。從第 4-5 層的路徑，正是像 Ertas Data Suite 這樣的資料準備平台所為之建構的——將原始企業資料通過完整管道轉化為受治理、AI 就緒的資料集，每個步驟都有記錄，每條血緣鏈都有保存。

晉升每個層次都需要時間和投入。但另一種選擇——在未準備好的資料上建構 AI——會產生無法運作、無法調試、無法通過監管審查的模型。