Back to blog
    資料準備 vs. 資料預處理:企業 AI 團隊需要了解的內容
    data-preparationenterprise-aimachine-learningsegment:enterprise

    資料準備 vs. 資料預處理:企業 AI 團隊需要了解的內容

    資料準備和資料預處理經常被互換使用,但它們的含義不同——而混淆兩者的企業團隊在最關鍵的階段投資不足,導致模型品質受損。

    EErtas Team·

    「我們只需要預處理資料」是企業 AI 項目規劃中最可靠的警告信號之一。這通常意味著團隊混淆了兩個不同的活動——並且在耗時最多、需要最多專業知識、決定模型最終品質的那個活動上預算不足。

    資料準備和資料預處理不是同義詞。它們描述的是不同的工作,在管道的不同階段,需要不同的技能。理解這一區別不是學術問題——它直接影響團隊如何規劃、配置人員和為 AI 項目預算。

    定義

    資料準備是將原始來源材料——PDF、試算表、圖像、音頻轉錄、資料庫匯出——轉換為乾淨、結構化、已標記的資料集的工作,以供機器學習使用。

    它包括:

    • 收集和攝取來源文件
    • 將非結構化文件解析為可提取的文字
    • 清理和去重複內容
    • 檢測和去識別化敏感資訊
    • 用語義標籤標注資料(實體標籤、分類標籤、邊界框、問答對)
    • 生成合成示例以填補空白
    • 格式化和驗證最終資料集

    資料預處理是機器學習框架在訓練前立即自動或通過配置執行的工作。它將已結構化、已標記的資料集轉換為模型可以訓練的數值表示。

    它包括:

    • 分詞(將文字拆分為 token ID)
    • 標準化(縮放數值特徵、標準化文字編碼)
    • 批次處理(將記錄分組為梯度更新的小批次)
    • 序列填充和截斷到固定上下文長度
    • 標籤編碼(將類別標籤轉換為整數索引)
    • 框架級別的資料增強(電腦視覺的隨機裁剪、翻轉)

    邊界是明確的:資料準備生成資料集。資料預處理將資料集轉換為訓練張量。

    各類別包含的內容

    具體示例讓這更清楚。考慮一家醫院訓練模型從臨床記錄中提取藥物資訊。

    資料準備任務:

    • 以合規方式,在適當授權下從 EHR 系統收集臨床記錄
    • 將記錄格式(通常是 RTF 或 HL7)解析為乾淨文字
    • 檢測並去識別化與訓練目標無關的 PHI
    • 讓臨床醫生標注藥物、劑量和給藥途徑的提及
    • 審查和調解標注者之間的意見不一致
    • 將標注記錄格式化為訓練框架所期望的 NER 架構的 JSONL
    • 驗證資料集乾淨、平衡且格式正確

    資料預處理任務(由框架完成):

    • 使用模型的詞彙表對文字進行分詞
    • 將實體範圍標籤編碼為與 token 邊界對齊的 BIO 標籤
    • 將序列填充或截斷到模型的最大序列長度
    • 分割為訓練和驗證批次
    • 處理不平衡標籤的類別加權

    資料準備任務需要臨床領域專業知識、資料工程、合規知識和謹慎的人工判斷。它需要數週到數月的時間。資料預處理任務是訓練腳本中的配置選擇。它需要數小時。

    為什麼混淆很重要

    當團隊說「我們需要預處理資料」時,他們是在命名 ML 工程師將在訓練腳本中執行的技術步驟。但這個說法暗示資料已經結構化和標記——已經準備好了。在大多數企業 AI 項目中,事實並非如此。

    這種混淆會產生三個具體問題:

    問題 1:低估時間表

    如果項目計劃將「資料預處理」視為涵蓋從原始來源文件到訓練就緒張量的一切的單一階段,估算反映的是 ML 工程師所知道的:分詞和批次處理需要數小時,複雜設置可能需要一天。

    這個估算所遺漏的是資料準備的人工密集型工作:收集來源文件、讓解析基礎設施在實際文件格式上運作、與領域專家進行標注、校準標籤、處理合規要求以及驗證輸出。這些工作需要數週到數月。

    為「資料預處理」分配了 2 週的項目計劃,在第 8 週到達時,訓練就緒的資料集仍然需要數週時間。

    問題 2:預算和人員分配錯誤

    資料預處理需要一名 ML 工程師和一個 GPU。資料準備需要 ML 工程師、領域專家、合規專業知識和標注基礎設施。

    如果兩者被視為同一件事——或者如果準備被無形地折疊到「預處理」中——預算和人員計劃將不包括領域專家時間,不包括標注工具授權或設置,也不包括受監管行業所需的合規審查。

    這些不是小的預算項目。企業規模的領域專家標注通常是整個 AI 項目中最大的單一時間成本。將其排除在預算之外不是小的規劃錯誤。

    問題 3:完全跳過準備步驟

    當準備和預處理被混淆時,需要明確規劃的準備步驟——去重複、PII 去識別化、標籤校準、品質評分——會被跳過,因為它們顯然不是「預處理」的一部分。團隊編寫分詞腳本,訓練模型,並在評估中發現品質問題。

    在評估時發現資料品質問題的成本遠高於系統性準備的成本:模型必須重新評估,診斷資料問題(沒有好工具通常很困難),修復準備,然後重新訓練。

    人類專業知識不可替代的地方

    資料預處理在很大程度上是可自動化的。給定正確格式化、已標記的資料集,訓練腳本無需人工輸入就可以運行。框架默認設置對標準任務的分詞、標準化和批次處理處理得很好。

    資料準備不能以同樣的方式自動化。最決定模型品質的步驟是那些需要人工判斷的步驟:

    標籤決策需要領域專業知識。確定合約中的條款是保修條款還是賠償條款需要法律知識。確定臨床記錄中的測量值是例行生命體徵還是應標記的異常發現需要臨床知識。使用通用模型進行自動標記,在一般情況下產生大致正確的標籤,而在最重要的邊緣案例中恰恰是錯的。

    品質閾值需要判斷。訓練記錄多短才算太短?對於給定的任務,什麼樣的 OCR 錯誤率是可以接受的?這些決策不能由腳本做出——它們需要了解模型將如何使用這些資料。

    增強決策需要對目標任務的理解。哪些類別需要增強?哪種合成示例將改善模型在實際用例上的性能?這些決策需要領域知識。

    合規決策本質上是人工的。某條資訊是否構成 HIPAA 下的 PHI,特定文件是否可以根據其資料處理協議用於訓練,標籤決策是否創建了已記錄的偏差——這些需要人工責任,而非自動化處理。

    實際測試

    如果您團隊的當前計劃包括一個名為「資料預處理」的階段,涵蓋分詞、批次處理和標準化之外的工作——詢問它實際上包括什麼。具體來說:

    • 來源資料是否需要從 PDF、Word 文件或圖像中提取?那是準備工作。
    • 是否有記錄需要清理、去重複或標準化,超出框架自動完成的範圍?那是準備工作。
    • 是否有記錄需要人工分配的標籤——實體標籤、分類、邊界框、問答對?那是準備工作。
    • 資料集是否需要根據合規要求進行驗證?那是準備工作。

    如果其中任何一個答案是肯定的,該項目就有一個尚未單獨規劃、配置人員或預算的資料準備階段。

    這一發現的常見結果不是項目失敗——而是項目延誤。本應在第 4 週開始訓練的 ML 工程師在第 10 週仍在調試 PDF 提取。時間未得到保障的領域專家的標注工作被排到了下個季度。未安排的合規審查需要 3 週。

    正確命名這些事情——準備 vs. 預處理、人工密集型 vs. 自動化、數月 vs. 數小時——是正確規劃它們的第一步。


    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    相關閱讀

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading