Back to blog
    企業 AI 採用路線圖:數位化、清理、標注、訓練
    enterprise-airoadmapdata-preparationai-strategysegment:enterprise

    企業 AI 採用路線圖:數位化、清理、標注、訓練

    大多數企業 AI 專案失敗是因為他們在資料準備好之前就嘗試訓練。分階段路線圖——先數位化、再清理、再標注、再訓練——顯著改變了成功率。

    EErtas Team·

    我們與企業團隊的探索對話中最一致的發現之一,是試圖採用 AI 的組織往往在嘗試跳過階段。這不是出於無知——他們理解資料準備的重要性。他們跳過階段是因為階段本身沒有被很好地定義,而且產生可見 AI 輸出的壓力很大。

    結果是可預測的:停滯的專案、表現不佳的模型、從六個月延伸到兩年而沒有明確進展的時間表。

    從這些對話中得出的見解——由我們一位顧問以「在微調之前先數位化」模式最清晰地表達——是企業 AI 採用具有自然的階段結構。理解這些階段並尊重順序的組織顯著提高了成功率。試圖壓縮順序的組織一致遇到相同的障礙。

    四個階段是:數位化、清理、標注、訓練。每個階段都有一個定義、一組告訴你何時處於其中的指標,以及一組告訴你何時準備好推進的輸出。

    階段洞見

    核心洞見很簡單,但違反直覺:大多數企業組織還沒有準備好訓練 AI 模型。他們認為自己準備好了,因為他們有資料。但是擁有資料和擁有 AI 就緒資料不是同一件事。

    考慮一下「擁有資料」在企業背景下通常意味著什麼:一個裝滿 PDF 的 SharePoint、一個有數百萬條記錄的傳統資料庫、過去二十年掃描文件的文件服務器、電子郵件存檔、試算表和專案報告。這是真實的、有價值的、與業務相關的資料。它也完全無法在當前狀態下被 AI 訓練管道存取。

    從那個起點到訓練好的模型不是一步,而是四步,每一步都比組織通常計劃的要長。成功的團隊是那些誠實地為所有四個階段編列預算的人。

    第一階段:數位化

    含義: 將原始、非結構化,通常是類比的資料轉換為數位、可搜索、機器可讀的形式。

    這個階段比大多數 AI 團隊承認的更基本。在受監管的行業——醫療保健、法律、建設、金融服務——有相當大部分的有價值資料根本不是數位的。它是手寫的、列印的、掃描的,或存儲在現代工具無法解析的專有傳統格式中。

    即使看起來是數位的資料往往也不是真正可存取的。通過掃描紙質文件創建的 PDF 是圖像,而非文本。從 1990 年代資料庫系統匯出的試算表可能是現代解析器無法可靠讀取的格式。一個裝滿 PDF 的 SharePoint 文件夾可能包含文本層損壞、表格作為圖像嵌入或頁眉頁腳產生干擾解析的噪音的文件。

    第一階段工作包括:

    • 清點: 識別存在哪些資料、在哪裡,以及什麼格式
    • 數位化: 將類比源(手寫文件、實體記錄)轉換為數位格式
    • 解析: 將數位但不可存取的格式(掃描 PDF、基於圖像的文件、傳統二進制格式)轉換為結構化文本
    • 可存取性: 確保解析輸出是下游可以處理的格式——不只是技術上可解析的,而是以可接受的品質實際可讀的

    最常見的第一階段失敗是低估解析難度。團隊假設因為文件是 PDF 就可以解析。實際上,PDF 是一種表示格式,而非資料格式。相同的文件副檔名涵蓋了完美解析的乾淨文本層 PDF,以及 PDF 容器中的掃描圖像,其中 OCR 品質很差,表格結構完全丟失。任何規模的文件存檔通常都涵蓋這個完整的品質範圍。

    你處於第一階段的跡象:

    • 你無法輕鬆搜索自己的文件存檔
    • 大部分資料是標準工具無法解析的格式
    • 大量資料僅以實體或傳統系統形式存在
    • 你無法估計有多少符合訓練條件的文件

    第一階段完成的樣子:

    • 資料資產的完整清點
    • 處理存檔中所有主要文件類型的解析管道,具有可接受的品質
    • 你的資料語料庫的結構化、可搜索表示
    • 解析輸出的品質評估(OCR 置信度分數、提取完整性指標)

    現實時間表: 根據存檔大小、格式多樣性和傳統系統複雜性,2 到 6 個月。擁有大型、多樣存檔的組織會將此低估 2 到 3 倍。

    第二階段:清理

    含義: 去除噪音、修復品質問題、去重,以及刪除敏感資訊,以產生安全、一致且適合標注的資料。

    第二階段是「已解析資料」和「有用資料」之間的差距變得清晰的地方。來自第一階段的已解析資料通常充滿 OCR 偽影、重複內容(同一文件在多個地方以細微變化出現)、增加噪音而無資訊的樣板文本,以及無法在沒有適當處理的情況下包含在訓練集中的敏感資料。

    第二階段工作包括:

    • 去重: 識別並去除語料庫中重複或近重複的內容。在大型存檔中,15 到 30% 的重複率是常見的——同一份報告分發到多個文件夾、跨專案重複使用的模板、在數百份合約中出現的標準條款。
    • 品質過濾: 去除或標記解析品質太差而無用的文件和段落。OCR 準確率 70% 的輸出比沒有資料更糟糕——它引入了模型可能從中學習的錯誤文本。
    • PII 和敏感資料刪除: 在進入標注管道之前,識別並刪除或刪除個人可識別資訊、受保護的健康資訊、特權通訊和其他敏感資料。在受監管的行業,這是合規要求,而非偏好。
    • 標準化: 標準化語料庫中的格式、術語和結構,以便標注步驟與一致的輸入一起工作。
    • 品質評分: 為每個文件或段落分配品質信號,以便標注步驟可以優先處理高品質示例。

    我們交談過的一家設備邊緣 AI 公司的 CTO 將第二階段確定為最有影響力的槓桿點:

    「讓資料清理過程明顯更容易,即使只有 80% 自動化,也將是一個巨大的推動力。」

    「80%」的框架很重要。第二階段不需要完美的自動化。它需要足夠的自動化使手動審閱步驟可以處理。如果品質過濾通過自動消除了 70% 的明顯不可用內容,需要人工判斷的剩餘 30% 是可管理的。如果沒有任何內容是自動化的,人工審閱就是瓶頸。

    你處於第二階段的跡象:

    • 你的已解析資料包含大量 OCR 錯誤、格式偽影或噪音
    • 你已在語料庫中找到重複內容,但沒有系統地去重
    • 敏感資料(PII、PHI、特權內容)沒有被識別和刪除
    • 你的標注團隊花費大量時間過濾不良示例

    第二階段完成的樣子:

    • 帶有記錄去重標準的去重語料庫
    • 為所有內容分配品質分數,並有清晰的包含/排除閾值
    • 帶稽核日誌完成 PII/敏感資料刪除
    • 標準化、格式一致的資料,準備好進行標注

    現實時間表: 根據語料庫大小和品質問題,1 到 4 個月。將此視為兩週任務的團隊一致發現需要八週。

    第三階段:標注

    含義: 領域專家為特定 AI 使用案例標注已清理的資料——創建模型將從中學習的標注訓練示例。

    第三階段是領域專業知識最為關鍵的階段。標注品質直接決定了模型品質的上限——模型不能超過其訓練標籤的品質。讓領域專家參與標注對於高風險 AI 應用不是可選的;它是主要的品質槓桿。

    第三階段的挑戰是,標注工具歷來需要 ML 工程專業知識才能操作,有效地將領域專家鎖在流程之外。然後標注工作落到 ML 工程師身上,他們在特定領域任務上的標注品質系統性較低。

    第三階段工作包括:

    • 架構設計: 定義模型將學習預測的標注類別、實體類型、關係或輸出格式。這個架構應該在領域專家的輸入下設計,而不只是 ML 工程師。
    • 指南制定: 創建足夠具體以在標注員之間產生一致結果的標注指南,同時保留領域專家帶來的判斷。
    • 標注: 標記示例的實際工作,理想情況下由領域專家使用他們無需 ML 工程支持即可操作的工具完成。
    • 品質控制: 標注員間一致性測量、分歧的共識解決,以及對低一致性項目的有針對性重新標注。
    • 迭代: 標注架構幾乎總會隨著標注員遇到原始設計未預期的邊緣案例而演變。第三階段包括架構迭代,而非只是標注執行。

    我們交談過的邊緣 AI 新創公司將架構演變確定為特別的挑戰:

    「資料標注是主要挑戰——目標類別頻繁改變。」

    這是第三階段的真實限制。改變的標注架構需要重新標注以前已標注的示例、更新指南,以及重新訓練在舊架構上構建的任何模型。構建適應架構演變的標注工作流程——而非將架構視為固定的——顯著降低迭代成本。

    你處於第三階段的跡象:

    • 你有乾淨、標準化的資料,但沒有訓練標籤
    • 你的 ML 工程師在標注領域專家應該標注的資料
    • 由於工具需要 ML 工程支持才能操作,標注吞吐量低
    • 標注員之間的標籤品質不一致

    第三階段完成的樣子:

    • 帶有記錄標注員間一致性率的標注資料集
    • 反映標注過程中遇到的現實邊緣案例的標注指南
    • 準備好進行訓練的品質過濾最終資料集
    • 將每個訓練示例連接到其標注員和當時有效的指南版本的稽核軌跡

    現實時間表: 根據資料集大小目標、標注複雜性和標注員可用性,2 到 12 個月。範圍很廣,因為標注吞吐量根據工具和領域專家可用性差異很大。

    第四階段:訓練

    含義: 在準備好的資料集上進行微調、RAG 索引或其他 AI 訓練和部署工作。

    第四階段是大多數企業 AI 路線圖開始的地方。它是獲得最多關注、最多工程工具和最多媒體報道的步驟。它也是最少企業專案實際停滯的步驟——因為當你到達第四階段時,你已經完成了艱難的工作。

    一個乾淨、標注良好的資料集輸入到現代微調框架,在大多數情況下是一個已解決的問題。模型選擇、訓練配置、評估方法論——這些都是有充分了解、記錄良好且由現有工具良好支持的。基礎設施是成熟的。

    第四階段包括:

    • 資料集分割: 帶有適當分層的訓練、驗證和測試集構建
    • 基線評估: 在微調之前建立當前性能基準
    • 微調: 在標注資料集上訓練模型,帶超參數優化
    • 評估: 根據特定任務指標和人類在同一任務上的性能測量模型性能
    • 部署: 以與組織現有系統整合的方式提供模型服務
    • 監控和迭代: 跟蹤生產性能,並將新資料回饋到第二到三階段以持續改進

    你處於第四階段的跡象:

    • 你有帶有記錄品質指標的乾淨、標注資料集
    • 你有需要改進的基線性能指標
    • 使用案例定義明確且可測量
    • 你有準備好的部署基礎設施

    第四階段完成的樣子:

    • 達到定義性能閾值的生產模型
    • 記錄且得到利害關係人同意的評估方法論
    • 生產性能追蹤的監控已就位
    • 將新生產資料路由回資料準備管道的反饋迴路

    現實時間表: 訓練和初始部署階段為 1 到 3 個月。對於大多數組織,這是最短的階段——這反映了艱難工作已在第一到三階段完成的事實。

    不同企業部門在路線圖上的位置

    四個階段是順序的,但組織根據其資料基礎設施的成熟度在不同點進入序列。

    早期階段組織(第一到二階段): 大多數擁有長期建立資料存檔和受監管行業的大型企業。有紙質記錄的醫療保健組織、有掃描專案文件的建設公司、有實體案卷的法律事務所。這些組織有有價值的資料,但尚未使其可存取。他們的 AI 準備差距主要是數位化和清理差距。

    中期階段組織(第二到三階段): 已數位化資料但尚未為特定 AI 任務標注的組織。許多擁有乾淨數位記錄的金融服務公司和科技公司屬於此類。他們可以查詢資料,但尚未為特定 AI 應用構建標注訓練集。

    後期階段組織(第三到四階段): 擁有乾淨、部分標注資料,準備好專注於微調和部署的組織。通常是已經運行過一些 AI 試點並了解其資料準備差距的組織。

    大多數組織高估了自己的階段。一個常見情景:CTO 認為組織處於第三階段(準備好標注和訓練),在實施過程中發現文件解析品質太差以支持標注(第一階段問題),不得不重新規劃專案時間表。

    跳過階段的失敗

    企業 AI 專案失敗最常見的原因,是在完成第一或第二階段之前嘗試第四階段(訓練)。

    這並非總是出於無知。有時是時間表壓力——利害關係人需要看到訓練好的模型,而非資料清點。有時是對組織在準備就緒程度上的真正不確定性。有時是假設糟糕的初始結果可以通過訓練迭代而非改善資料品質來修復。

    證據不支持「通過迭代獲得品質」的方法。MIT Sloan 對成功企業 AI 計劃的研究一致發現,獲勝計劃在訓練開始之前將 50 到 70% 的專案時間投入資料準備。壓縮資料準備並提前開始訓練的團隊,通常比按順序進行的團隊花費更多總時間達到可接受的品質。

    分階段路線圖不是放慢速度,而是通往可運作 AI 系統的最快路徑——因為它消除了在未準備好的資料上訓練產生的返工周期。


    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    相關閱讀

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading