
benchmarkthroughputon-premisedata-preparationperformanceocrlabelingenterprisesegment:service-provider
基準測試:100GB 以上企業資料集的本地端資料準備管道吞吐量
本地端資料準備的實際吞吐量基準——按文件類型和硬體配置分類的攝入、OCR、清理、標記和導出速度。
EErtas Team·
每個為企業 AI 項目提供資料準備的 服務提供商在範疇界定期間都面臨同樣的問題:「這需要多長時間?」
答案取決於文件類型、資料集大小、管道階段和硬體。「幾週」這樣模糊的估計在撰寫具有固定時間表的工作說明書時沒有幫助。具體的吞吐量數字才有幫助。
本指南為不同文件類型和硬體配置的每個管道階段提供了實際基準資料。這些數字來自常見配置,而非理想化的實驗室條件。將它們作為範疇界定的基準。
方法說明
所有基準測試假設:
- 單機處理(非分佈式)
- 文件按順序通過管道階段處理(全部攝入 → 全部清理 → 全部標記 → 全部導出)
- OCR 引擎和推理後端的預設配置(無奇異調整)
- 吞吐量以初始暖機後的持續速率衡量,而非峰值突發
參考硬體配置:
| 配置 | CPU | RAM | GPU | 存儲 |
|---|---|---|---|---|
| 入門 | Ryzen 7 7700(8核/16線程) | 32 GB | RTX 4060 Ti 16GB | 2 TB NVMe |
| 中階 | Ryzen 9 7950X(16核/32線程) | 64 GB | RTX 4080 16GB | 4 TB NVMe |
| 生產 | Threadripper 7970X(32核/64線程) | 128 GB | 2× RTX 4090 24GB | 8 TB NVMe |
第一階段:攝入吞吐量
攝入涵蓋讀取源文件、解析其結構並提取原始內容(文字、圖像、元資料)。
按文件類型
| 文件類型 | 平均大小 | 入門(文件/分鐘) | 中階(文件/分鐘) | 生產(文件/分鐘) |
|---|---|---|---|---|
| 原生 PDF(基於文字) | 500 KB | 200 至 400 | 400 至 800 | 800 至 1,500 |
| 掃描 PDF(基於圖像) | 5 MB | 60 至 120 | 120 至 250 | 250 至 500 |
| Word(.docx) | 200 KB | 300 至 600 | 600 至 1,200 | 1,200 至 2,000 |
| Excel(.xlsx) | 1 MB | 100 至 200 | 200 至 400 | 400 至 800 |
| 純文字 / CSV | 50 KB | 1,000 至 3,000 | 3,000 至 8,000 | 8,000 至 15,000 |
| 圖像(JPEG/PNG) | 2 MB | 150 至 300 | 300 至 600 | 600 至 1,200 |
| HTML | 100 KB | 500 至 1,000 | 1,000 至 2,000 | 2,000 至 4,000 |
| 電子郵件(.eml/.msg) | 100 KB | 200 至 400 | 400 至 800 | 800 至 1,500 |
攝入瓶頸分析
原生 PDF:CPU 綁定。每個文件的 PDF 解析是單線程的,因此吞吐量隨並行工作者數量而擴展(受 CPU 核心和 I/O 限制)。
掃描 PDF:I/O 綁定。每頁是一個必須解壓縮的大圖像。存儲速度起主導作用。
Excel 文件:大型試算表的記憶體綁定。一個 50 MB 的 Excel 文件在記憶體中可以解壓縮為 500 MB 以上。並行處理受 RAM 限制。
100 GB 是什麼樣子
100 GB 的企業存檔通常包含多種文件類型。代表性分佈:
| 類型 | 百分比 | 約文件數 | 約總大小 |
|---|---|---|---|
| 原生 PDF | 40% | 80,000 個文件 | 40 GB |
| 掃描 PDF | 25% | 5,000 個文件 | 25 GB |
| Word/Excel | 20% | 40,000 個文件 | 20 GB |
| 圖像 | 10% | 5,000 個文件 | 10 GB |
| 其他(文字、HTML、電子郵件) | 5% | 20,000 個文件 | 5 GB |
| 總計 |