Back to blog
    如何稽核非結構化資料的 AI 潛力
    unstructured-datadata-auditenterprise-aidata-preparationassessmentsegment:enterprise

    如何稽核非結構化資料的 AI 潛力

    評估企業非結構化資料 AI 準備度的實用指南——盤點文件類型、估算標注工作量、識別個人識別資訊,以及評估文件品質。

    EErtas Team·

    在選擇模型、聘用 ML 工程師或購買 GPU 之前,你需要回答一個問題:你的資料可以用於 AI 嗎?

    非結構化資料稽核是系統性評估你擁有什麼、評估其品質、估算準備所需工作量,以及識別阻礙因素的過程。本指南提供了進行稽核的實用框架——你可以在 1-2 週內用現有員工完成。

    第一階段:盤點(第 1-3 天)

    找出所有資料源

    企業資料存在於比任何人預期更多的地方:

    • 網路文件伺服器和 NAS 設備
    • SharePoint / OneDrive / Google Drive
    • 電子郵件存檔(Exchange、Gmail)
    • 文件管理系統(SharePoint、M-Files、OpenText)
    • 業務應用程式(ERP、CRM、HRIS)
    • 實體紙質存檔(是的,仍然存在)
    • 個人硬碟和本地儲存
    • 排定退役的傳統系統

    按類型分類

    對於每個來源,按類型計數文件:

    文件類型數量格式數位/掃描估算大小
    合約12,400PDF70% 數位 / 30% 掃描45 GB
    發票89,000PDF、TIFF40% 數位 / 60% 掃描120 GB
    報告3,200Word、PDF95% 數位8 GB
    電子郵件450,000MSG、EML100% 數位65 GB
    試算表15,600Excel、CSV100% 數位12 GB

    評估使用量

    • 文件總數和總大小
    • 增長率(每月/年積累多少新資料?)
    • 歷史深度(存檔追溯到多遠?)
    • 覆蓋範圍(存檔是否有缺口——缺少的年份、部門或文件類型?)

    第二階段:品質評估(第 4-7 天)

    樣本選擇

    不要試圖評估所有內容。抽取代表性樣本:

    • 跨文件類型和時間段的 100-500 份文件
    • 包括來自不同來源和部門的文件
    • 包括數位原生和掃描文件
    • 將樣本權重向與你的 AI 使用案例最相關的文件類型傾斜

    品質維度

    提取品質:內容能否可靠提取?

    • 數位 PDF:文字提取置信度(通常較高)
    • 掃描文件:OCR 品質(取決於掃描品質、解析度、文件年齡)
    • 表格:提取期間是否可以保留表格結構?
    • 圖像:嵌入圖像是否相關且可提取?

    對每個樣本文件評分:高 / 中 / 低提取品質。

    完整性:每份文件是否包含所需信息?

    • 必填字段是否填寫?
    • 章節是否完整或被截斷?
    • 附件和附錄是否包含?

    一致性:格式變化有多大?

    • 來自不同來源的相同文件類型——結構有多相似?
    • 每種文件類型存在多少格式變體?
    • 命名規範是否足夠一致以進行自動分類?

    相關性:有多少資料實際上與目標 AI 使用案例相關?

    • 直接有用的文件佔多少百分比?
    • 間接有用的文件佔多少百分比(提供上下文但不是訓練信號)?
    • 不相關的文件佔多少百分比(可以排除)?

    品質摘要

    製作品質評分卡:

    文件類型提取完整性一致性相關性整體
    合約
    發票尚可
    舊報告需要處理

    第三階段:合規評估(第 8-9 天)

    個人識別資訊/受保護健康信息識別

    對文件樣本中的敏感資料進行抽查:

    • 個人姓名、地址、電話號碼、電子郵件地址
    • 社會保障號碼、稅務 ID、帳戶號碼
    • 醫療信息(診斷、治療、處方)
    • 財務信息(收入、信用、帳戶餘額)
    • 生物特徵資料(帶有可識別面孔的照片)

    估算個人識別資訊密度:含有個人識別資訊的文件佔多少百分比,以及每份文件含有多少?

    監管映射

    根據個人識別資訊調查結果和行業,識別適用法規:

    • GDPR(歐盟資料主體)
    • HIPAA(健康信息)
    • EU AI Act(高風險 AI 系統)
    • 行業特定法規(SOX、PCAOB、ITAR 等)
    • 州/地區隱私法

    處理限制

    • 資料可以離開建築物嗎?(氣隙隔離要求?)
    • 誰可以訪問資料?(許可、知情需要、職業特權?)
    • 需要什麼稽核追蹤?
    • 資料保留和銷毀義務是什麼?

    第四階段:工作量估算(第 10-12 天)

    攝取工作量

    基於品質評估:

    • 高品質數位文件:快速(批次處理)
    • 混合品質:中等(對提取結果進行一些手動審查)
    • 低品質掃描文件:緩慢(OCR 品質審查、手動糾正)

    標注工作量

    基於以下因素估算:

    • 需要標注的記錄數量
    • 標注模式的複雜性(二元分類 vs 多標注 vs 實體提取)
    • 所需的領域專業知識(通才 vs 專科)
    • 每條記錄的估算時間(簡單分類 10 秒,複雜標注 2-5 分鐘)
    • 審查週期(通常 2-3 輪以確保品質)

    範例:10,000 份文件 × 每份文件 2 分鐘 × 2 個審查週期 = 約 670 小時的標注工作量。

    時間線

    製作現實的時間線:

    階段工作量持續時間
    攝取X 份文件Y 週
    清理Z 條記錄W 週
    標注N 條記錄M 週
    品質審查N 條記錄P 週
    匯出-1 週

    第五階段:建議(第 13-14 天)

    推進/不推進評估

    基於稽核,建議以下之一:

    • 推進:資料品質和使用量支持 AI 使用案例。定義範圍和時間線。
    • 有條件推進:資料可用但需要大量準備。相應地預算。
    • 推遲:資料品質或使用量不足。在開始 AI 專案之前投資於資料收集或改進。
    • 轉向:預期使用案例與可用資料不匹配。考慮更符合你現有資料的替代使用案例。

    優先排序

    如果正在考慮多個 AI 使用案例,按資料準備度對它們進行排序——資料最準備好的使用案例應該先進行,無論哪個使用案例在紙面上看起來最有價值。

    稽核交付物

    製作簡潔的文件(5-10 頁),涵蓋:

    1. 資料盤點摘要
    2. 按文件類型的品質評估
    3. 合規要求和限制
    4. 工作量和時間線估算
    5. 帶有理由的推進/不推進建議

    這份文件成為你的 AI 資料準備專案計劃的基礎。沒有它,你的規劃就是盲目的。

    當你準備好從稽核轉移到準備時,像 Ertas Data Suite 這樣的平台處理完整的管道——攝取、清理、標注、增強和匯出——在本地部署,並內建稽核追蹤和合規文件。但稽核要先進行。在嘗試準備資料之前,先了解你的資料。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading