企業 AI 資料準備實際需要多長時間？

誠實的回答是：比你預算的時間更長。幾乎毫無例外。

60-80% 的統計數字——用於資料準備的 ML 專案時間比例——被廣泛引用、偶爾受到質疑，並被經歷過真正企業 AI 專案的團隊一致確認。這個統計數字沒有捕捉到的是它對專案規劃意味著什麼。

如果資料準備佔總專案時間的 60-80%，而你的專案有 6 個月的截止期限，那麼你大約有 3.5 到 5 個月的時間僅用於資料準備。不是模型訓練。不是評估和迭代。不是部署。只是將資料整理成允許訓練開始的形狀。

大多數專案計劃不反映這一點。大多數專案計劃為「資料預處理」分配 3-4 週，為其餘部分分配 4-5 個月。發現時間線是顛倒的通常發生在第 6 週，當資料準備的第一輪完成而輸出品質還不適合訓練時。

本文提供具體的基準，讓你可以根據現實數字進行規劃。

驅動時間線的變數

時間線因四個因素而差異極大：

1. 源格式品質。 來自現代文件管理系統的原生 PDF 解析乾淨且快速。來自 1990 年代存檔的掃描文件需要 OCR、糾偏和手動品質審查。同樣名義上的「1,000 份文件」語料庫，如果是原生的可能需要 8 小時處理，如果是掃描的則需要 40 多小時。

2. 資料使用量。 不只是文件數量，而是總文字使用量。10,000 份短表格與 10,000 份密集技術報告是不同的問題。

3. 標注複雜性。 在文件層面將文件分類為 5 個類別很快。在專業領域（臨床術語、法律條款、工程組件）的標記層面上標注命名實體很慢。

4. 團隊組成和工具。 基於手動電子表格的清理 vs 自動去重管道。可以獨立訪問標注工具的領域專家 vs 需要 ML 工程師協助的領域專家。這些乘數是巨大的。

逐階段時間基準

攝取

攝取時間主要由格式和 OCR 要求決定。

源格式	每小時頁數（自動化）	錯誤率	需要手動審查
原生 PDF（清晰佈局）	5,000–15,000	低於 1%	極少
原生 PDF（複雜多列）	1,000–3,000	2–5%	表格驗證
掃描 PDF（高品質，300 DPI 以上）	500–1,500	2–8%	抽查
掃描 PDF（低品質，混合）	100–400	10–25%	大量
Word（.docx）	10,000–30,000	低於 1%	極少
Excel（.xlsx，簡單）	5,000–20,000 個工作表	1–3%	標題驗證
音頻轉錄	2–5 倍實時 + 審查	5–15%	說話者/術語糾正

這些是自動化處理速率。在主要運行開始之前，每種語料庫類型還要加上設置時間——管道配置、樣本驗證、參數調整——4-16 小時。

清理

清理時間更難估算，因為它取決於攝取的錯誤率和合規要求。

任務	時間估算
自動去重（5 萬條記錄）	1–4 小時計算 + 2–4 小時驗證
個人識別資訊/PHI 編輯（標準模式）	2–8 小時計算 + 4–8 小時稽核樣本審查
品質評分和過濾	2–6 小時計算 + 2–4 小時閾值校準
OCR 瑕疵的手動清理	每頁有重大錯誤需 1–3 分鐘

手動清理部分是不可預測的。如果大量文件的 OCR 品質很差，手動糾正就成為時間線的驅動因素。10,000 頁語料庫在 5% 頁面級別錯誤率下有 500 頁需要手動處理——每頁 2 分鐘，每位標注員超過 16 小時的手動工作。

標注

標注幾乎總是最長的階段，也幾乎總是最被低估的。

任務	每條記錄時間	10,000 條記錄
文件分類（5 個類別）	15–30 秒	40–80 小時
文件分類（20 個以上類別）	30–90 秒	80–250 小時
NER 標注（3–5 個實體類型）	2–5 分鐘	330–830 小時
NER 標注（10 個以上實體類型，技術性）	5–15 分鐘	830–2,500 小時
邊界框標注（簡單物件）	1–3 分鐘	165–500 小時
每段生成問答對	10–20 分鐘	1,650–3,300 小時
指令微調對撰寫	15–45 分鐘	2,500–7,500 小時

這些時間假設已校準且高效工作的領域專家。對於校準之前的第一批標注會話，因不一致性和返工需增加 30-50%。

以這些速率，為複雜 NER 任務標注 10,000 條記錄需要 800-2,500 小時的專家標注時間。對於單個標注員每週 40 小時，這是 20-63 週。大多數專案不能等那麼長，這意味著要麼：聘用多個標注員、縮小範圍，或使用增強來擴展較小的高品質標注集。

增強

使用本地 LLM 的自動化增強以模型推論速度運行——通常根據記錄長度和硬體每小時 50-500 條合成記錄。設置和合成示例的品質審查增加 4-16 小時。這通常是最快的階段。

匯出

匯出通常很快——小時，而非天——假設格式正確指定且驗證是自動化的。如果格式驗證失敗（模式錯誤、編碼問題）在晚期發現，可能增加 4-16 小時的調試時間。

跳過清理的複合成本

為了趕截止期限或因為清理「看起來像開銷」而跳過或匆忙進行清理的團隊，面臨複合問題。

在含有 10% 近重複記錄的資料上訓練的模型學習以誇大的置信度再現常見內容。在含有 2% 個人識別資訊污染的資料上訓練的模型將在生產中輸出個人識別資訊。在含有 5% OCR 損壞的資料上訓練的模型將產生包含損壞瑕疵的輸出。

成本不只是清理時間本身——而是之後的完整訓練-評估-診斷-修復-重新訓練週期。如果清理問題直到模型評估時才被識別（訓練開始後幾週），總增加時間是：識別資料問題的時間 + 清理時間 + 重新訓練時間 + 重新評估時間。這一貫比在正確階段解決清理問題長 2-4 倍。

團隊一貫低估的地方

舊掃描文件的 OCR 品質。 在規劃之前沒有稽核其存檔實際掃描品質的團隊，通常假設 OCR 會「足夠接近」。在 150 DPI、有傾斜、墨水褪色和混合印刷品質條件下掃描的文件的 OCR 不夠接近 AI 訓練資料的要求。這在攝取階段之後被發現，當清理階段揭示錯誤率時。

累積存檔中的近重複率。 企業文件存檔未經整理。文件通過電子郵件附件、版本保存、模板實例化和複製貼上積累。在去重之前，有效訓練資料使用量通常是表面使用量的 60-75%。

標注一致性和校準時間。 團隊假設領域專家會自然地就標注達成一致。他們在第一輪很少做到。校準——精確定義標注模式、進行試驗標注、測量標注員間一致性、仲裁分歧、用精細化模式重新標注——在主要標注運行開始之前需要 2-6 週。

目標框架的格式要求。 在標注完成後發現訓練框架需要與匯出格式不匹配的特定 JSONL 模式，需要重新格式化工作，有時如果模式更改影響標注如何映射到輸出，則需要重新標注。

粗略基準表

語料庫大小	格式	標注類型	估算總準備時間
1,000 份文件	原生 PDF，簡單	文件分類	2–4 週
1,000 份文件	掃描 PDF	文件分類	4–8 週
10,000 份文件	原生 PDF，混合	NER（5 個實體類型）	3–6 個月
10,000 份文件	掃描 PDF	NER（5 個實體類型）	5–10 個月
50,000 份文件	混合格式	指令微調對	6–18 個月
10 萬份以上文件	混合格式	多任務標注	12 個月以上

這些估算假設一個小型團隊（2-4 人，包括至少 1 名 ML 工程師和領域專家可用性）。更大的團隊成比例地減少日曆時間，受標注一致性開銷的影響。

工具如何影響時間線

手動流程——用於清理的 Python 腳本、基於電子表格的品質審查、拼湊起來的標注工具——可靠地產生比具有內建品質門的自動化管道長 2-4 倍的時間線。

複合效應：

手動去重需要幾天；自動化去重需要幾小時
手動個人識別資訊審查需要閱讀每份文件；帶人工稽核抽樣的自動化檢測需要閱讀 5-10%
每個標注員會話都需要 ML 工程師設置的標注工具將有效標注時間翻倍
需要為每個新匯出目標重寫的格式轉換腳本在匯出階段增加幾天

對於大型專案，管道自動化不是奢侈品。對於一個嘗試準備 10,000 份文件 NER 語料庫的 3 人團隊，良好工具管道和手動流程之間的差異就是 3 個月專案和 9 個月專案之間的差異。

Ertas Data Suite 自動化攝取、清理、去重和個人識別資訊編輯階段，並提供領域專家無需安裝即可訪問的基於瀏覽器的標注介面。根據使用管道的團隊，自動化階段單獨就比基於腳本的管道減少 40-60% 的總準備時間。

Your data is the bottleneck — not your models.

Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

Book a Discovery Call Learn about Ertas Data Suite →