如何稽核非結構化資料的 AI 潛力

在選擇模型、聘用 ML 工程師或購買 GPU 之前，你需要回答一個問題：你的資料可以用於 AI 嗎？

非結構化資料稽核是系統性評估你擁有什麼、評估其品質、估算準備所需工作量，以及識別阻礙因素的過程。本指南提供了進行稽核的實用框架——你可以在 1-2 週內用現有員工完成。

第一階段：盤點（第 1-3 天）

找出所有資料源

企業資料存在於比任何人預期更多的地方：

網路文件伺服器和 NAS 設備
SharePoint / OneDrive / Google Drive
電子郵件存檔（Exchange、Gmail）
文件管理系統（SharePoint、M-Files、OpenText）
業務應用程式（ERP、CRM、HRIS）
實體紙質存檔（是的，仍然存在）
個人硬碟和本地儲存
排定退役的傳統系統

按類型分類

對於每個來源，按類型計數文件：

文件類型	數量	格式	數位/掃描	估算大小
合約	12,400	PDF	70% 數位 / 30% 掃描	45 GB
發票	89,000	PDF、TIFF	40% 數位 / 60% 掃描	120 GB
報告	3,200	Word、PDF	95% 數位	8 GB
電子郵件	450,000	MSG、EML	100% 數位	65 GB
試算表	15,600	Excel、CSV	100% 數位	12 GB

評估使用量

文件總數和總大小
增長率（每月/年積累多少新資料？）
歷史深度（存檔追溯到多遠？）
覆蓋範圍（存檔是否有缺口——缺少的年份、部門或文件類型？）

第二階段：品質評估（第 4-7 天）

樣本選擇

不要試圖評估所有內容。抽取代表性樣本：

跨文件類型和時間段的 100-500 份文件
包括來自不同來源和部門的文件
包括數位原生和掃描文件
將樣本權重向與你的 AI 使用案例最相關的文件類型傾斜

品質維度

提取品質：內容能否可靠提取？

數位 PDF：文字提取置信度（通常較高）
掃描文件：OCR 品質（取決於掃描品質、解析度、文件年齡）
表格：提取期間是否可以保留表格結構？
圖像：嵌入圖像是否相關且可提取？

對每個樣本文件評分：高 / 中 / 低提取品質。

完整性：每份文件是否包含所需信息？

必填字段是否填寫？
章節是否完整或被截斷？
附件和附錄是否包含？

一致性：格式變化有多大？

來自不同來源的相同文件類型——結構有多相似？
每種文件類型存在多少格式變體？
命名規範是否足夠一致以進行自動分類？

相關性：有多少資料實際上與目標 AI 使用案例相關？

直接有用的文件佔多少百分比？
間接有用的文件佔多少百分比（提供上下文但不是訓練信號）？
不相關的文件佔多少百分比（可以排除）？

品質摘要

製作品質評分卡：

文件類型	提取	完整性	一致性	相關性	整體
合約	高	高	中	高	好
發票	中	高	低	中	尚可
舊報告	低	中	低	高	需要處理

第三階段：合規評估（第 8-9 天）

個人識別資訊/受保護健康信息識別

對文件樣本中的敏感資料進行抽查：

個人姓名、地址、電話號碼、電子郵件地址
社會保障號碼、稅務 ID、帳戶號碼
醫療信息（診斷、治療、處方）
財務信息（收入、信用、帳戶餘額）
生物特徵資料（帶有可識別面孔的照片）

估算個人識別資訊密度：含有個人識別資訊的文件佔多少百分比，以及每份文件含有多少？

監管映射

根據個人識別資訊調查結果和行業，識別適用法規：

GDPR（歐盟資料主體）
HIPAA（健康信息）
EU AI Act（高風險 AI 系統）
行業特定法規（SOX、PCAOB、ITAR 等）
州/地區隱私法

處理限制

資料可以離開建築物嗎？（氣隙隔離要求？）
誰可以訪問資料？（許可、知情需要、職業特權？）
需要什麼稽核追蹤？
資料保留和銷毀義務是什麼？

第四階段：工作量估算（第 10-12 天）

攝取工作量

基於品質評估：

高品質數位文件：快速（批次處理）
混合品質：中等（對提取結果進行一些手動審查）
低品質掃描文件：緩慢（OCR 品質審查、手動糾正）

標注工作量

基於以下因素估算：

需要標注的記錄數量
標注模式的複雜性（二元分類 vs 多標注 vs 實體提取）
所需的領域專業知識（通才 vs 專科）
每條記錄的估算時間（簡單分類 10 秒，複雜標注 2-5 分鐘）
審查週期（通常 2-3 輪以確保品質）

範例：10,000 份文件 × 每份文件 2 分鐘 × 2 個審查週期 = 約 670 小時的標注工作量。

時間線

製作現實的時間線：

階段	工作量	持續時間
攝取	X 份文件	Y 週
清理	Z 條記錄	W 週
標注	N 條記錄	M 週
品質審查	N 條記錄	P 週
匯出	-	1 週

第五階段：建議（第 13-14 天）

推進/不推進評估

基於稽核，建議以下之一：

推進：資料品質和使用量支持 AI 使用案例。定義範圍和時間線。
有條件推進：資料可用但需要大量準備。相應地預算。
推遲：資料品質或使用量不足。在開始 AI 專案之前投資於資料收集或改進。
轉向：預期使用案例與可用資料不匹配。考慮更符合你現有資料的替代使用案例。

優先排序

如果正在考慮多個 AI 使用案例，按資料準備度對它們進行排序——資料最準備好的使用案例應該先進行，無論哪個使用案例在紙面上看起來最有價值。

稽核交付物

製作簡潔的文件（5-10 頁），涵蓋：

資料盤點摘要
按文件類型的品質評估
合規要求和限制
工作量和時間線估算
帶有理由的推進/不推進建議

這份文件成為你的 AI 資料準備專案計劃的基礎。沒有它，你的規劃就是盲目的。

當你準備好從稽核轉移到準備時，像 Ertas Data Suite 這樣的平台處理完整的管道——攝取、清理、標注、增強和匯出——在本地部署，並內建稽核追蹤和合規文件。但稽核要先進行。在嘗試準備資料之前，先了解你的資料。