Back to blog
    如何將非結構化企業文件轉換為 AI 訓練資料
    data-preparationunstructured-dataenterprise-aidocument-processingsegment:enterprise

    如何將非結構化企業文件轉換為 AI 訓練資料

    將 PDF、Word 文件、Excel 檔案和掃描文件轉換為乾淨、結構化的 AI 訓練資料的逐步指南——無需將檔案傳送至雲端 API。

    EErtas Team·

    企業組織持有大量知識。它被鎖在文件裡:工程規格、臨床筆記、法律合約、財務報告、維護日誌、培訓手冊,以及幾十年來積累的電子郵件。挑戰不是缺乏資料——而是幾乎沒有任何資料是機器學習模型可以直接訓練的形式。

    非結構化資料估計佔企業總資料量的 80-90%。將其轉換為 AI 訓練資料需要了解每種格式的需求、可能出錯的地方,以及為何「直接發送給 GPT-4」不是企業規模的解決方案。

    企業非結構化資料的光譜

    「非結構化資料」涵蓋了各種格式,每種格式都有不同的解析需求:

    格式常見用途主要挑戰
    原生 PDF報告、合約、規格書閱讀順序、表格結構、多欄版面
    掃描 PDF / 圖像舊版文件、紙質表格、簽署合約OCR 準確率、方向、手寫字跡
    Word (.docx)政策、報告、範本樣式處理、追蹤修訂、嵌入物件
    Excel (.xlsx)資料表格、模型、工程量清單多層標題、合併儲存格、僅含公式的儲存格
    CAD 匯出(PDF/DXF)工程圖面、場地圖空間關係、標注層、比例尺
    音訊轉錄訪談、會議記錄、口述說話者辨識、填充詞移除、技術詞彙
    電子郵件存檔(.eml, .pst)通訊、決策、審批對話重建、附件處理、元數據

    大多數企業 AI 專案同時涉及其中幾種格式。一個建設 AI 專案可能會從原生 PDF(合約)、掃描 PDF(舊版圖面)、Excel 檔案(工程量清單)和 Word 文件(專案規格)中提取資料——全部用於同一個訓練資料集。單一的解析策略無法涵蓋所有這些。

    為何「直接上傳到 GPT-4」在企業規模下行不通

    阻力最小的路徑很誘人:取出文件,上傳到雲端 AI 服務,提取結構化資訊。這對少量文件有效。它在企業規模下因四個不同的原因而失效。

    數量和成本。 以典型的 token 定價通過雲端 API 處理 700 GB 的企業文件,成本高達數萬美元,耗時數週。更重要的是,每次管線需要更改時都必須重做——格式要求、標籤 schema、輸出格式。

    合規性和資料主權。 對於醫療機構,將包含患者資訊的文件傳送到第三方 API 違反了 HIPAA,除非簽訂了業務夥伴協議,且供應商的資料處理符合 PHI 標準。對於處理客戶資料的金融服務機構,同樣的邏輯在各種金融隱私法規下適用。對於國防承包商和政府機構,未分類但敏感的文件不能離開核准的網路。這些組織的 AI 團隊以前聽過「只用雲端 API」。來自法律和合規部門的答案始終是「不」。

    稽核追蹤。 雲端 API 呼叫不會產生企業 AI 管線在 2026 年所需的稽核追蹤。EU AI Act 第 10 條要求記錄訓練資料來源和轉換。HIPAA 要求對 PHI 處理進行稽核記錄。雲端 API 呼叫是一個黑盒子——你得到輸出,但你無法以合規所需的形式記錄轉換。

    一致性和控制。 隨著供應商更新模型,雲端模型輸出會改變。今天產生穩定、可重現訓練資料的管線,可能在六個月後底層模型更新時產生不同的輸出。對於按計劃運行並需要可重現性的企業管線,這是一個可靠性問題。

    格式逐一說明

    原生 PDF

    原生 PDF 包含嵌入的文字——字符存儲在檔案中,而不僅僅是渲染為圖像。文字提取是可能的,但並不簡單。

    挑戰在於閱讀順序。PDF 是一種呈現格式。文字元素按其在頁面上的位置存儲,而非按語義閱讀順序。一份兩欄的技術文件按垂直位置交錯存儲來自兩欄的文字元素。簡單的提取器將從第一欄讀取一個片段,然後從第二欄讀取一個片段,然後回到第一欄——產生語法上不連貫的輸出。

    版面感知解析使用文字元素的空間位置將它們分組到各欄,然後按閱讀順序線性化每一欄。表格需要偵測格線結構(明確的線條或空白模式),並重建行列關係。頁首和頁尾需要被識別並從正文文字中分離。

    掃描 PDF 和圖像

    掃描文件不包含嵌入的文字——它們是頁面的圖像。OCR(光學字符識別)從像素資料重建文字。OCR 品質取決於:

    • 掃描解析度:低於 200 DPI,字符識別顯著降低。300 DPI 是可靠結果的最低要求。
    • 頁面方向:以一定角度掃描的文件需要在 OCR 前進行糾偏。
    • 印刷品質:褪色的墨水、墨水滲漏或損壞的紙張會降低字符識別準確率。
    • 字型多樣性:標準印刷字型處理良好。手寫字跡、不尋常的字型和技術符號(工程符號、化學公式)需要專門的模型或手動校正。

    對於企業掃描文件存檔,每個字符 1-5% 的 OCR 錯誤率是常見的。在 10 萬份文件的語料庫中,這意味著數百萬個字符級錯誤——如果不加以校正,足以顯著降低訓練資料品質。

    Word 文件(.docx)

    Word 文件比 PDF 具有更豐富的語義結構——標題、樣式、列表、表格和追蹤修訂都在檔案格式中明確表示。這使得原則上可以進行乾淨的提取。

    實際挑戰是樣式不一致。企業的 Word 文件由許多人在多年中以許多不同的樣式選擇建立。一份文件中,樣式面板中的「標題 1」實際上是格式化為看起來像標題的正文文字,而實際的正文文字在「正常」樣式中但有自訂格式——提取時會產生錯誤的層次結構。

    追蹤修訂和評論需要一個決策:它們代表文件的最終狀態,還是應該排除的中間狀態?答案取決於使用場景,但必須在整個語料庫中一致地做出決定。

    Excel 檔案(.xlsx)

    Excel 檔案通常用於存儲表格資料——工程量清單、財務模型、設備清單、臨床資料匯出。提取這些資料用於 AI 訓練需要處理:

    • 多層標題:許多企業試算表使用跨多個標題行的合併儲存格來表示層次列分組。
    • 僅含公式的儲存格:顯示計算值但只包含公式的儲存格。公式可能需要被評估,或者顯示值需要被提取。
    • 多個工作表:工作簿可能有 20 個工作表,其中一些包含資料,一些包含樞紐分析表,一些包含圖表,一些包含草稿工作。
    • 混合內容:包含數字、文字和單位混合的儲存格(例如「450 kg」、「見工作表 3」)。

    對於訓練結構化提取模型,保留表格結構——包括標題層次——至關重要。將多層標題表格扁平化為單標題 CSV 會失去賦予資料意義的語義分組。

    CAD 匯出

    CAD 檔案(匯出為 PDF 或 DXF)呈現了最困難的提取挑戰。它們包含空間關係——組件、它們相對於彼此的位置、尺寸標注、材料標注——這些沒有直接的文字等效項。一個結構連接的圖面通過幾何形狀顯示構件如何連接;那種關係無法僅通過提取文字標注來捕捉。

    對於工程文件的 AI 訓練,CAD 匯出通常需要:視覺方法(將圖面視為圖像並訓練電腦視覺模型),或混合方法(提取文字標注和元數據,同時將空間版面視為結構化元數據)。

    音訊轉錄

    通過語音識別轉換為文字的音訊資料引入了自己的錯誤類型:誤認的技術術語、多方對話中的說話者混淆,以及增加訓練資料噪音的填充詞。特定領域的詞彙(醫學術語、工程術語、法律術語)比一般語音有更高的錯誤率,因為這些術語在語音識別訓練資料中代表性不足。

    音訊轉錄通常需要:說話者辨識(分離誰說了什麼)、填充詞移除(「嗯」、「啊」、假開始)、使用領域詞彙的技術術語校正,以及格式化為一致的結構。

    從提取到匯出的鏈

    無論源格式如何,處理鏈都遵循相同的結構:

    1. 解析:從源格式提取原始文字和結構
    2. 清洗:移除人工製品,標準化編碼,去重,偵測和刪除敏感資訊
    3. 標注:使用領域專家知識應用語義標籤——命名實體識別標籤、分類標籤、邊界框
    4. 匯出:轉換為下游 AI 使用場景的目標格式

    關鍵紀律是不要跳過步驟。最常見的捷徑是直接從解析到匯出,跳過清洗和標注。這產生的訓練資料看起來合理,但包含編碼錯誤、近似重複項、個人識別資訊和未標注的記錄——這些問題在幾週後模型進入評估時才表現為模型品質問題。

    不同 AI 使用場景的「結構化」含義

    目標格式決定了提取的內容需要如何組織:

    • 微調:內容必須轉換為提示-完成或指令遵循對。原始提取文字不夠——它必須以明確的輸入-輸出結構重新格式化。
    • RAG(檢索增強生成):內容必須被分塊為適當大小的片段(通常為 200-1000 個 token),每個片段攜帶關於其源文件、頁面和章節的元數據。
    • 電腦視覺:內容包括圖像資料和結構化標注——邊界框、類別標籤、分割遮罩——採用 YOLO、COCO 或類似格式。
    • 傳統機器學習:內容必須是表格形式——具有一致類型、沒有缺失值、沒有自由文字欄位的特徵欄。

    在開始提取之前了解目標使用場景,決定了標注策略、分塊方法和驗證要求。在沒有明確目標格式的情況下開始提取,是企業 AI 資料專案中最常見的浪費努力來源之一。


    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    相關閱讀

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading