
AI 資料成熟度的 5 個層次(以及大多數企業卡關的地方)
AI 資料就緒的實用成熟度模型——從原始非結構化檔案到受管理、版本化、符合稽核要求的資料集。大多數企業卡在第 1-2 層。
並非所有企業資料對 AI 的就緒程度都相同。有些組織擁有乾淨、標注過、版本化的資料集,並有完整的稽核追蹤。大多數組織則是在檔案伺服器上堆了幾 TB 的 PDF。
這個成熟度模型提供了一個框架,幫助您評估組織目前所處的位置,以及晉升至下一層所需要做的事。根據企業 AI 導入的實際規律,大多數組織卡在第 1 層或第 2 層——而從第 2 層跳升至第 3 層,是專案最常停滯的地方。
第 1 層:原始
狀態:非結構化檔案存放在儲存空間中。PDF、Word 文件、電子郵件、掃描紙本、圖像、試算表——多年或數十年累積,沒有任何針對 AI 的整理。
特徵:
- 資料存放在檔案伺服器、SharePoint、電子郵件封存,或實體儲存空間
- 沒有關於存在哪些資料、格式為何、狀態如何的清單
- 格式多樣性極高(跨部門有數十種檔案類型)
- 各儲存位置之間有大量重複
- 尚未進行任何品質評估
此層次的 AI 能力:無。原始資料無法用於模型訓練。
大多數企業擁有的:大量的第 1 層資料。IBM/MIT 估計 80-90% 的企業資料是非結構化的,主要指的就是這個層次。
晉升所需:資料清查和格式評估。在處理資料之前,您需要先知道自己擁有什麼。
第 2 層:已建立目錄
狀態:資料已被盤點。您知道存在哪些類型的文件、大致數量、格式,以及存放位置。但內容尚未被提取或處理。
特徵:
- 資料清單已存在(文件類型、數量、位置)
- 部分元資料可取得(日期、作者、檔案大小)
- 格式分布已被掌握(X% PDF、Y% Excel、Z% 掃描件)
- 資料品質已抽樣但未系統性評估
- 尚未進行任何提取或解析
此層次的 AI 能力:最低限度。您可以做出哪些資料應優先處理的明智決策,但還無法訓練模型。
大多數企業在初步評估後達到的狀態:第 2 層。他們知道自己有什麼,但尚未開始處理。
晉升所需:擷取管道。OCR、版面偵測、表格提取、格式解析——將非結構化檔案轉換為已提取、可搜尋的內容。
第 3 層:結構化
狀態:內容已從原始檔案中提取。文字已解析,表格已提取,圖像已建立目錄。資料可被搜尋和處理——但尚未針對特定 AI 使用案例進行標注或標籤。
特徵:
- 文件已通過 OCR 和解析進行擷取
- 文字已提取且可搜尋
- 表格已識別並結構化
- 已執行基本清理(去重、品質評分)
- 可能已執行 PII/PHI 偵測
- 資料已採用可處理的格式(JSON、文字、結構化記錄)
此層次的 AI 能力:有限。您可以使用提取的文字建立基本的搜尋/擷取系統(RAG)。但監督式模型(分類、提取、生成)需要標注資料——而第 3 層並不具備。
第 3 層陷阱:許多團隊止步於此,因為基本的 RAG 給人一種進展中的錯覺。但基於未整理、未標注資料的 RAG,有著標注過、微調過的模型所沒有的品質上限。
晉升所需:標注基礎設施。領域專家需要工具來針對 AI 使用案例,為結構化資料標注類別、實體和品質評估。
第 4 層:已標注
狀態:結構化資料已由領域專家標注,附上特定 AI 應用所需的類別、實體或數值。訓練資料集存在,可用於微調或訓練模型。
特徵:
- 已為目標 AI 使用案例定義標注模式
- 領域專家(非僅 ML 工程師)已標注資料
- 已測量標注者間一致性
- 已執行品質審查
- 訓練、驗證和測試分割存在
- 匯出格式符合模型要求(JSONL、COCO 等)
此層次的 AI 能力:強大。您可以微調模型、訓練分類器,並建立提取管道。標注資料是使特定領域 AI 成為可能的訓練信號。
大多數 AI 專案所需:第 4 層資料。這是大多數監督式 AI 應用的最低可行層次。
晉升所需:治理基礎設施。版本控制、稽核追蹤、合規文件,以及持續的維護流程。
第 5 層:受治理
狀態:標注資料集已版本化、可稽核,並持續維護。從來源到訓練資料,完整的資料血緣存在。合規文件自動生成。組織將 AI 訓練資料視為受管理資產,而非一次性的專案產出。
特徵:
- 資料集版本化,具備差異比較能力(版本間的變更)
- 完整的資料血緣(任何訓練記錄都可追溯至來源文件)
- 每次轉換和標注決策的稽核追蹤
- 偏差檢查已記錄且可重現
- 合規文件可匯出(EU AI Act、HIPAA、GDPR)
- 持續監控資料漂移和品質退化
- 定義了資料集更新和重新訓練觸發條件的流程
此層次的 AI 能力:完整。您可以有信心地部署 AI、展示合規性、通過追溯訓練資料來調查問題,並以更新的資料持續改善模型。
受監管行業所需:第 5 層。EU AI Act、HIPAA 和 GDPR 共同要求這裡描述的治理能力。醫療、法律、金融和政府行業的企業,不能在低於此層次的情況下負責任地部署高風險 AI。
大多數企業卡關的地 方
第 1 層 → 第 2 層的轉換(評估)
阻礙:沒有人負責評估。責任落在 IT、資料工程和業務單位之間的灰色地帶。 解決方案:指派一位資料就緒負責人——一個對清單負責的人。
第 2 層 → 第 3 層的轉換(擷取)
阻礙:格式多樣性。企業在各部門擁有數十種文件類型,沒有任何單一解析工具能全部處理。 解決方案:從一個使用案例的一種文件類型開始。不要試圖一次擷取所有內容。
第 3 層 → 第 4 層的轉換(標注)
阻礙:領域專家的可用性。能夠標注資料的人(醫生、律師、工程師、會計師)有自己的正職工作。標注工具需要 Python。ML 工程師成為瓶頸。 解決方案:使用領域專家可使用的標注工具——具有無程式碼介面的桌面應用程式。分配專屬的標注時間(這和任何其他專案任務同樣重要)。
第 4 層 → 第 5 層的轉換(治理)
阻礙:將資料準備視為一次性活動。團隊建立資料集、訓練模型,然後繼續前進——沒有建立版本控制、監控或更新流程。 解決方案:從一開始就將治理納入管道架構。使用能自動生成稽核追蹤和版本歷史的平台。
評估您的層次
問這些問題:
- 您知道自己擁有哪些資料嗎?→ 如果不知道:第 1 層
- 資料是否已被解析和提取?→ 如果否:第 2 層
- 是否已執行特定領域的標注?→ 如果否:第 3 層
- 資料集是否已版本化且可稽核?→ 如果否:第 4 層
- 以上皆是?→ 第 5 層
大多數企業發現,他們大部分的資料處於第 1-2 層。從第 4-5 層的路徑,正是像 Ertas Data Suite 這樣的資料準備平台所為之建構的——將原始企業資料通過完整管道轉化為受治理、AI 就緒的資料集,每個步驟都有記錄,每條血緣鏈都有保存。
晉升每個層次都需要時間和投入。但另一種選擇——在未準備好的資料上建構 AI——會產生無法運作、無法調試、無法通過監管審查的模型。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

EU AI Act Training Data Compliance: The Complete Guide (2026)
Everything enterprises need to know about EU AI Act training data requirements — data quality, bias testing, documentation mandates, and the August 2026 deadline.

EU AI Act Compliance Timeline: What's Due by August 2026
A clear timeline of EU AI Act enforcement dates, what's already in effect, what's coming in August 2026, and what enterprises need to have in place for training data compliance.

Data Lineage Is Now a Legal Requirement — Are You Ready?
The EU AI Act makes data lineage mandatory for high-risk AI systems. Most enterprise pipelines have lineage gaps at every tool boundary. Here's what needs to change.