
企業 80% 的資料是非結構化的——這對 AI 究竟意味著什麼
解析被廣泛引用的統計數據:80-90% 的企業資料是非結構化的——哪些類型的資料被困住、機會成本是什麼,以及這與 AI 採用的關係。
這個統計數據隨處可見:80-90% 的企業資料是非結構化的。IBM、MIT、Gartner 和數十位分析師在過去十年中都引用過它。它已經成為背景——一個如此熟悉的事實,以至於沒有人停下來思考它實際上意味著什麼。
對於採用 AI 的企業而言,其影響是具體且深遠的。那 80% 代表了大多數組織中最大的未開發訓練資料來源——也是 AI 專案在資料階段停滯的主要原因。
「非結構化」到底是什麼意思
非結構化資料是無法放入行和列的資訊。它沒有預定義的 schema、沒有一致的格式,也沒有簡單的方法用 SQL 查詢。
實際而言,這是企業擁有的:
文件(最大類別)
- PDF:合約、報告、規範、手冊、通信——商業文件的預設格式。有些是數位原生的(可搜尋文字)。許多是紙張的掃描影像(需要 OCR)。
- Word 文件:提案、備忘錄、會議記錄、政策——通常在部門和年份之間格式不一致。
- 含敘述性內容的試算表:真正的資訊在評論、合併儲存格和自由文字欄位中的 Excel 檔案——而非結構化的數值資料。
通訊
- 電子郵件:企業員工平均每天發送超過 40 封郵件。多年的郵件檔案包含客戶需求、決策、核准、投訴和機構知識。
- 聊天記錄:Slack、Teams 和其他通訊平台的檔案。越來越多的決策在這裡做出,知識在這裡分享。
- 會議錄音和逐字稿:品質各異的影片和音訊錄製及轉錄。
技術和領域特定
- 工程圖面:CAD 匯出、藍圖、線路圖——視覺格式的空間資訊。
- 醫療記錄:臨床筆記、出院摘要、放射科報告——結構化代碼旁的自由文字臨床文件。
- 法律文件:合約、摘要、法院文件、監管提交——密集的、領域特定的文字。
媒體
- 影像:產品照片、檢查影像、衛星影像、掃描文件。
- 音訊/影片:客服電話、訓練影片、監控錄影。
這對 AI 意味著什麼
訓練資料缺口
AI 模型從資料中學習。企業 20% 的結構化資料(資料庫、ERP 記錄、CRM 欄位)已經在使用中——它驅動著儀表板、報表和傳統分析。80% 的非結構化資料基本上未被觸及。
這造成了訓練資料缺口:企業擁有的最具領域特定性、最富上下文的資料,正是它無法輕易用於 AI 的資料。
律師事務所對法律 AI 最有價值的資產不是案件編號資料庫——而是包含事務所法律推理的合約、摘要和備忘錄。醫院對臨床 AI 最有價值的資產不是計費代碼——而是描述患者表現、診斷推理和治療決策的臨床筆記。
RAG 天花板
檢索增強生成(RAG)是目前的解決方案:不是在非結構化資料上訓練模型,而是在查詢時檢索相關片段並注入提示中。RAG 無需準備即可在原始非結構化資料上運作——這正是它的吸引力。
但 RAG 有品質天花板:
- 分塊產生的人工痕跡在邊界處破壞上下文
- 當相關資訊的措辭與查詢不同時,檢索會遺漏
- 無法保證領域特定的輸出格式或術語一致性
- 檢索到的文件中有雜訊時效能下降
在適當準備的資料上訓練的微調模型沒有這些限制。但它們需要 RAG 讓你跳過的準備步驟。
競爭不對稱
為 AI 準備非結構化資料的企業獲得結構性優勢。他們的模型是在競爭對手無法存取的專有領域知識上訓練的。沒有公開模型是在你的特定合約、患者記錄、工程文件或客戶通信上訓練的。
這就是為什麼資料準備不僅僅是運營任務——它是策略投資。首先將非結構化檔案轉換為 AI 就緒訓練資料的企業,獲得隨時間複利增長的模型品質優勢。
為什麼它一直被忽視
工具不存在
直到最近,將非結構化文件轉換為結構化、標註的訓練資料需要客製化工程。沒有單一工具能處理完整的流程:匯入、清理、標註、增強和匯出。嘗試過的企業使用了碎片化的工具鏈(Docling + Label Studio + 自定義腳本),建置和維護成本高昂。
使用案例不明確
在當前 AI 浪潮之前,非結構化資料的計算價值有限。你可以搜尋它(全文搜尋)或儲存它(文件管理),但你無法大規模地從中學習。證明準備成本合理的使用案例——領域特定 AI 模型、智能文件處理、自動化分析——相對較新。
工作量巨大
準備非結構化資料確實很困難。格式多樣性、品質變異、領域專業知識要求、隱私限制和數量都使得 ML 專案 60-80% 的時間花在資料準備上。這個工作量是真實且不可減少的——但它也是一次性投資,為後續每個 AI 應用帶來回報。
該怎麼做
- 審計你的非結構化資料:你有什麼?在哪裡?狀況如何?(參見我們的非結構化資料審計指南。)
- 按 AI 使用案例排列優先順序:不要試圖準備所有東西。從支援你最高價值 AI 應用的文件類型開始。
- 投資準備基礎設施:一個統一的資料準備平台,在你的基礎設施上處理完整的流程——從匯入到匯出。Ertas Data Suite 正是為此而設計。
- 讓領域專家參與:理解資料的人應該參與標註。這意味著他們能實際使用的工具——桌面應用程式,而非 Python 環境。
- 以資產建立的角度思考:你不是在做一個專案——你是在建立一項資產。版本化、受治理、AI 就緒的資料集,服務於多個模型和應用。
那 80% 的非結構化資料不是一個讓人點頭的統計數據。它是企業 AI 的原料——而首先準備好它的企業將擁有持久的優勢。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Construction Document AI: Why 700GB of PDFs Is an Asset, Not a Problem
Construction companies sitting on massive PDF archives are sitting on competitive advantage — if they can convert those documents into AI-ready data. Here's how to think about it.

What Is AI Data Readiness? The Assessment Every Enterprise Skips
Most enterprises jump straight to model selection without assessing whether their data is actually usable for AI. Here's what AI data readiness means and how to assess it.

Build vs. Buy AI Data Preparation: The Real Cost Breakdown
The real math on building in-house AI data preparation pipelines vs. buying a platform — covering engineering costs, maintenance, tool licensing, and hidden integration expenses.