Back to blog
    企業 80% 的資料是非結構化的——這對 AI 究竟意味著什麼
    unstructured-dataenterprise-aidata-preparationdocument-aisegment:enterprise

    企業 80% 的資料是非結構化的——這對 AI 究竟意味著什麼

    解析被廣泛引用的統計數據:80-90% 的企業資料是非結構化的——哪些類型的資料被困住、機會成本是什麼,以及這與 AI 採用的關係。

    EErtas Team·

    這個統計數據隨處可見:80-90% 的企業資料是非結構化的。IBM、MIT、Gartner 和數十位分析師在過去十年中都引用過它。它已經成為背景——一個如此熟悉的事實,以至於沒有人停下來思考它實際上意味著什麼。

    對於採用 AI 的企業而言,其影響是具體且深遠的。那 80% 代表了大多數組織中最大的未開發訓練資料來源——也是 AI 專案在資料階段停滯的主要原因。

    「非結構化」到底是什麼意思

    非結構化資料是無法放入行和列的資訊。它沒有預定義的 schema、沒有一致的格式,也沒有簡單的方法用 SQL 查詢。

    實際而言,這是企業擁有的:

    文件(最大類別)

    • PDF:合約、報告、規範、手冊、通信——商業文件的預設格式。有些是數位原生的(可搜尋文字)。許多是紙張的掃描影像(需要 OCR)。
    • Word 文件:提案、備忘錄、會議記錄、政策——通常在部門和年份之間格式不一致。
    • 含敘述性內容的試算表:真正的資訊在評論、合併儲存格和自由文字欄位中的 Excel 檔案——而非結構化的數值資料。

    通訊

    • 電子郵件:企業員工平均每天發送超過 40 封郵件。多年的郵件檔案包含客戶需求、決策、核准、投訴和機構知識。
    • 聊天記錄:Slack、Teams 和其他通訊平台的檔案。越來越多的決策在這裡做出,知識在這裡分享。
    • 會議錄音和逐字稿:品質各異的影片和音訊錄製及轉錄。

    技術和領域特定

    • 工程圖面:CAD 匯出、藍圖、線路圖——視覺格式的空間資訊。
    • 醫療記錄:臨床筆記、出院摘要、放射科報告——結構化代碼旁的自由文字臨床文件。
    • 法律文件:合約、摘要、法院文件、監管提交——密集的、領域特定的文字。

    媒體

    • 影像:產品照片、檢查影像、衛星影像、掃描文件。
    • 音訊/影片:客服電話、訓練影片、監控錄影。

    這對 AI 意味著什麼

    訓練資料缺口

    AI 模型從資料中學習。企業 20% 的結構化資料(資料庫、ERP 記錄、CRM 欄位)已經在使用中——它驅動著儀表板、報表和傳統分析。80% 的非結構化資料基本上未被觸及。

    這造成了訓練資料缺口:企業擁有的最具領域特定性、最富上下文的資料,正是它無法輕易用於 AI 的資料。

    律師事務所對法律 AI 最有價值的資產不是案件編號資料庫——而是包含事務所法律推理的合約、摘要和備忘錄。醫院對臨床 AI 最有價值的資產不是計費代碼——而是描述患者表現、診斷推理和治療決策的臨床筆記。

    RAG 天花板

    檢索增強生成(RAG)是目前的解決方案:不是在非結構化資料上訓練模型,而是在查詢時檢索相關片段並注入提示中。RAG 無需準備即可在原始非結構化資料上運作——這正是它的吸引力。

    但 RAG 有品質天花板:

    • 分塊產生的人工痕跡在邊界處破壞上下文
    • 當相關資訊的措辭與查詢不同時,檢索會遺漏
    • 無法保證領域特定的輸出格式或術語一致性
    • 檢索到的文件中有雜訊時效能下降

    在適當準備的資料上訓練的微調模型沒有這些限制。但它們需要 RAG 讓你跳過的準備步驟。

    競爭不對稱

    為 AI 準備非結構化資料的企業獲得結構性優勢。他們的模型是在競爭對手無法存取的專有領域知識上訓練的。沒有公開模型是在你的特定合約、患者記錄、工程文件或客戶通信上訓練的。

    這就是為什麼資料準備不僅僅是運營任務——它是策略投資。首先將非結構化檔案轉換為 AI 就緒訓練資料的企業,獲得隨時間複利增長的模型品質優勢。

    為什麼它一直被忽視

    工具不存在

    直到最近,將非結構化文件轉換為結構化、標註的訓練資料需要客製化工程。沒有單一工具能處理完整的流程:匯入、清理、標註、增強和匯出。嘗試過的企業使用了碎片化的工具鏈(Docling + Label Studio + 自定義腳本),建置和維護成本高昂。

    使用案例不明確

    在當前 AI 浪潮之前,非結構化資料的計算價值有限。你可以搜尋它(全文搜尋)或儲存它(文件管理),但你無法大規模地從中學習。證明準備成本合理的使用案例——領域特定 AI 模型、智能文件處理、自動化分析——相對較新。

    工作量巨大

    準備非結構化資料確實很困難。格式多樣性、品質變異、領域專業知識要求、隱私限制和數量都使得 ML 專案 60-80% 的時間花在資料準備上。這個工作量是真實且不可減少的——但它也是一次性投資,為後續每個 AI 應用帶來回報。

    該怎麼做

    1. 審計你的非結構化資料:你有什麼?在哪裡?狀況如何?(參見我們的非結構化資料審計指南。)
    2. 按 AI 使用案例排列優先順序:不要試圖準備所有東西。從支援你最高價值 AI 應用的文件類型開始。
    3. 投資準備基礎設施:一個統一的資料準備平台,在你的基礎設施上處理完整的流程——從匯入到匯出。Ertas Data Suite 正是為此而設計。
    4. 讓領域專家參與:理解資料的人應該參與標註。這意味著他們能實際使用的工具——桌面應用程式,而非 Python 環境。
    5. 以資產建立的角度思考:你不是在做一個專案——你是在建立一項資產。版本化、受治理、AI 就緒的資料集,服務於多個模型和應用。

    那 80% 的非結構化資料不是一個讓人點頭的統計數據。它是企業 AI 的原料——而首先準備好它的企業將擁有持久的優勢。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading