本地資料準備的硬體規格：CPU、GPU 和記憶體需求

「我們需要 A100 嗎？」是開始資料準備專案的企業客戶最常見的硬體問題。答案幾乎總是不需要。

資料準備工作負載——擷取、OCR、清理、標注、擴增、匯出——與模型訓練的計算特性不同。訓練運行受益於龐大的 GPU 並行性和高記憶體頻寬。資料準備是順序性的、I/O 密集型的，通常受磁碟速度而非計算速度的瓶頸限制。適合訓練的硬體通常對資料準備來說是過度配置且優化不足的。

本指南涵蓋每個管道階段的具體硬體需求，並在三個預算層級提供具體建議。

按管道階段的需求

擷取：CPU + I/O

擷取讀取來源文件（PDF、Word 文件、圖像、試算表、HTML）並將其內容提取為標準化格式。工作是解析密集型和 I/O 密集型的。

CPU：4 個以上核心用於並行文件處理。大多數文件解析器每個文件是單執行緒的，因此並行性來自同時處理多個文件。時脈速度對個別文件吞吐量比核心數量更重要。

RAM：最低 16 GB。大型 PDF（100 頁以上帶嵌入圖像）在解析過程中每個可能消耗 500 MB–2 GB。並發處理多個大型文件會使這個數字相乘。

儲存：這是主要瓶頸。NVMe SSD 提供 3–7 GB/s 的順序讀取。SATA SSD 提供 500–550 MB/s。HDD 提供 100–200 MB/s。對於 500 GB 的文件存檔，NVMe 和 HDD 之間的差異是原始讀取吞吐量 2 分鐘 vs 40 分鐘以上（實際解析時間更長，但 I/O 占主導地位）。

GPU：擷取不需要。

OCR：強烈建議使用 GPU

OCR 將掃描文件和圖像轉換為機器可讀文字。對於文件密集型資料集，這是計算最密集的階段。

引擎	硬體	速度（頁/秒）	準確率
Tesseract 5	CPU（8 核心）	1–3	適合乾淨掃描件
PaddleOCR	CPU	3–5	對多種版面較好
PaddleOCR	GPU（RTX 4070）	15–25	對多種版面較好
EasyOCR	GPU（RTX 4070）	10–20	多語言效果好
Surya OCR	GPU（RTX 4070）	20–30	複雜版面效果強

僅使用 CPU 的 OCR 計算：100,000 頁的存檔，以 2 頁/秒處理 = 約 14 小時。以 GPU 的 20 頁/秒處理 = 約 1.4 小時。對於一次性擷取，隔夜 14 小時可能是可接受的。但對於在調整 OCR 設置後重新處理的迭代工作流程，GPU 加速很重要。

GPU：GPU 加速 OCR 最低需要 8 GB VRAM。12 GB 更適合使用較大頁面緩衝區的批次處理。

RAM：建議 32 GB。OCR 引擎將模型權重與頁面緩衝區一起載入記憶體。

清理：CPU + 高 RAM

清理包括去重、格式標準化、PII 偵測和品質過濾。

精確去重（基於雜湊）：CPU 密集型，低記憶體消耗。計算每個文件的雜湊，比較雜湊值。一百萬個文件需要幾秒鐘。

模糊去重（MinHash/SimHash）：CPU 和記憶體密集型。帶 128 個排列組合的 MinHash 在一百萬個文件上需要約 2–4 GB 的 RAM 用於簽名矩陣。在一千萬個文件時，這增長到 20–40 GB。

PII 偵測：基於正則表達式的 PII 偵測速度快且 CPU 佔用低。基於 NER 的 PII 偵測（使用 GLiNER 等小型模型或微調的 NER 模型）增加了 GPU 需求：典型的 NER 模型需要 2–4 GB VRAM。

RAM：基準 32 GB。對於超過一百萬個文件的資料集或在同時運行去重和基於 NER 的 PII 偵測時，需要 64 GB。

使用本地 LLM 進行標注：需要 GPU

AI 輔助標注——本地 LLM 對文件進行預標注，然後由人工審核——是人們在規劃硬體時最常問到的階段。

模型大小	量化	所需 VRAM	速度（token/秒）	說明
7B（Mistral、Llama 3.1）	Q4_K_M	4–5 GB	30–60	適合分類、簡單提取
7B	Q8_0	7–8 GB	25–45	更高準確率，仍然快速
14B（Qwen 2.5、Llama 3.1）	Q4_K_M	8–10 GB	20–35	適合細緻標注
14B	Q8_0	14–16 GB	15–25	中等範圍最佳品質
32B（Qwen 2.5）	Q4_K_M	18–20 GB	10–18	大多數標注任務的邊際收益遞減

實際上限：對於資料準備標注（分類、實體提取、情感分析、主題分配），7B–14B 模型以 2–4 倍的吞吐量提供更大模型 90–95% 的準確率。移至 30B 以上的模型很少能提高足以證明硬體成本和速度降低合理的標注品質。

GPU：最低 8 GB VRAM（用於 7B Q4）。建議 16 GB VRAM（用於 14B Q4 或 7B Q8）。RTX 4060 Ti 16GB、RTX 4070 或 RTX 4080 在價格與 VRAM 比率方面是最佳選擇。

系統 RAM：最低 32 GB。模型在 GPU 上運行，但應用程式需要記憶體用於文件處理、上下文組裝和批次管理。

擴增：LLM 生成需要 GPU

合成資料生成和擴增使用與標注相同的本地 LLM 基礎設施，但輸出更長。生成一份合成 500 字的文件比生成分類標籤需要長 5–10 倍。

硬體需求與標注階段相同。如果您為標注配置了合適的硬體，擴增也準備好了。區別在於吞吐量：在 7B Q4 下，每分鐘預計生成 5–15 份合成文件，在較大模型大小時更少。

匯出：I/O 密集型

匯出將處理過的資料轉換為訓練格式。瓶頸是寫入速度。

儲存：輸出需要 NVMe SSD。在 NVMe 上寫入 100 GB 的 JSONL 需要 15–30 秒，在 SATA SSD 上需要 3–5 分鐘。

CPU：中等程度。壓縮（gzip、zstd）增加 CPU 負擔。4 個以上核心處理並行壓縮。

RAM：16 GB 對大多數匯出操作已足夠。

三個硬體層級

入門層級（約 $3,000）

使用案例：小型資料集（來源不到 100 GB）、以文字為主的文件、手動或輕量 AI 輔助標注。

組件	規格	估計成本
CPU	AMD Ryzen 7 7700 或 Intel i7-13700（8–16 核心）	$300–$350
RAM	32 GB DDR5-5600	$100–$130
GPU	NVIDIA RTX 4060 Ti 16GB	$400–$450
儲存	2 TB NVMe SSD（Gen4）	$120–$150
主機板 + 電源供應器 + 機殼	中塔配置	$400–$500
總計		~$1,500–$1,700

或來自 Dell/HP/Lenovo 的預建工作站，規格相當，約 $2,500–$3,500，帶保固和支援。

此層級處理概念驗證專案、小型客戶合作案和文字主導的資料集。僅 CPU 的 LLM 推論是可能的（通過 llama.cpp 的 CPU 模式），但速度很慢——在 7B 參數模型下，預計每秒 2–5 個 token。

中階層級（約 $8,000）

使用案例：生產資料準備，100 GB–1 TB 來源資料，GPU 加速 OCR 和標注。

組件	規格	估計成本
CPU	AMD Ryzen 9 7950X 或 Intel i9-13900K（16–24 核心）	$450–$550
RAM	64 GB DDR5-5600	$200–$260
GPU	NVIDIA RTX 4080 16GB 或 RTX 4090 24GB	$1,000–$1,800
儲存	4 TB NVMe SSD（Gen4）	$250–$300
主機板 + 電源供應器（850W 以上）+ 機殼	優質配置	$600–$800
總計		~$2,500–$3,700

主要 OEM 的預建工作站等效：$5,000–$8,000。

這是服務供應商的主力層級。它以 15–25 頁/秒處理 GPU 加速 OCR，舒適地以 Q4 運行 14B 模型，並在不因 RAM 瓶頸的情況下處理 100 GB 以上的資料集。大多數企業資料準備合作案都能由此配置完全服務。

生產層級（約 $20,000 以上）

使用案例：大規模資料準備（1 TB 以上來源），並行管道階段，14B 以上模型的高吞吐量推論。

組件	規格	估計成本
CPU	AMD Threadripper 7970X（32 核心）或雙 Xeon	$1,500–$3,000
RAM	128–256 GB DDR5 ECC	$500–$1,200
GPU	2× NVIDIA RTX 4090 24GB 或 1× A6000 48GB	$3,600–$5,500
儲存	8 TB NVMe（RAID 0 用於速度或 RAID 1 用於冗余）	$600–$1,000
主機板 + 電源供應器（1200W 以上）+ 機殼	伺服器/工作站機箱	$1,000–$1,500
總計		~$7,200–$12,200

主要 OEM 的預建伺服器/工作站等效：$15,000–$25,000 以上。

多 GPU 配置啟用並行推論（不同 GPU 上的不同模型）或更大的模型大小（通過張量並行的 32B 以上）。雙 RTX 4090 提供 48 GB 總 VRAM——足夠以 Q8 量化運行 32B 模型。

「我們需要 A100 嗎？」

NVIDIA A100（40 GB 或 80 GB）每個售價 $10,000–$15,000。它專為受益於高記憶體頻寬（80 GB 變體上的 2 TB/s）和大型張量核心的訓練工作負載而設計。

對於資料準備，A100 的優勢在很大程度上無關緊要：

記憶體頻寬：資料準備推論使用小批次大小（通常為 1），因此記憶體頻寬的重要性不如訓練時那麼大。
張量核心：小批次推論不飽和張量核心。A100 在消費級 GPU 上的 FP16 吞吐量優勢在批次大小為 1 時被浪費了。
VRAM：80 GB 變體對非常大的模型（70B 以上）很有用，但這些模型對於標注任務速度較慢，在分類和提取上的準確率很少超過 14B 模型。

RTX 4090（24 GB VRAM，$1,800）在資料準備任務上以 12–15% 的成本提供 80–90% 的 A100 推論性能。兩個 RTX 4090（$3,600）提供更多的總 VRAM 和相當的吞吐量。

將 A100 預算留給實際的訓練運行。

較新硬體的 NPU 支援

神經處理單元（NPU）出現在最近的筆記型電腦和桌上型電腦 CPU 中——Intel Meteor Lake 和 Arrow Lake、AMD Ryzen AI、Qualcomm Snapdragon X Elite。這些專用推論加速器承諾在沒有獨立 GPU 的情況下高效進行本地 AI 推論。

2026 年資料準備的現狀：

吞吐量：2026 年的 NPU 提供 10–45 TOPS，而中階 GPU 超過 100 TOPS。適合輕量模型（1B–3B 參數），但對於資料準備標注所需的 7B 以上模型來說太慢。
軟體支援：Ollama 和 llama.cpp 有實驗性的 NPU 支援。穩定性因硬體供應商而異。ONNX Runtime 提供最廣泛的 NPU 相容性。
使用案例：NPU 適用於已部署模型的邊緣推論。對於資料準備——您在批次處理文件，而非服務即時請求——獨立 GPU 更實用。

隨著 TOPS 評分的提高和軟體支援的成熟，NPU 將變得更加相關。現在，請圍繞基於 GPU 的推論規劃資料準備工作負載。

大型文件處理的 RAM 規格

系統 RAM 是讓團隊措手不及的無聲瓶頸：

PDF 處理：帶嵌入圖像的 200 頁 PDF 在解析過程中可能消耗 1–2 GB。同時處理 16 個文件僅 PDF 緩衝區就需要 16–32 GB。
去重：對 500 萬個文件進行模糊去重需要 10–20 GB 用於簽名儲存。
LLM 上下文：即使模型在 GPU 上運行，應用程式也在系統 RAM 中組裝提示詞。帶有大量上下文視窗（8K–32K token）的長文件每個並發推論消耗 100–500 MB。
作業系統和應用程式開銷：作業系統、應用程式運行時和文件系統快取需要 4–8 GB。

規格規則：從 32 GB 開始。對於生產工作負載，移至 64 GB。只有對於非常大型文件集的並發處理（1000 萬個以上文件）或多 GPU 推論配置，才移至 128 GB 以上。

整合在一起

Ertas Data Suite 的原生桌面架構直接存取所有這些硬體——CPU、GPU、NPU 和文件系統——沒有容器層或虛擬化的開銷。應用程式在啟動時偵測可用硬體，並相應地配置管道階段：有 GPU 時使用 GPU 加速 OCR，沒有 GPU 時退回到 CPU。

對於為客戶合作案確定硬體範疇的服務供應商，中階層級（作為預建工作站 $5,000–$8,000）可以處理絕大多數資料準備專案。從那裡開始。如果 OCR 吞吐量或標注速度在特定合作案上成為測量的瓶頸，再升級 GPU。不要為假設的規模預先購買。

硬體決策應該在資料評估之後，而非之前。在選擇組件之前，了解您的文件類型、數量和標注複雜性。500 GB 的乾淨文字 PDF 存檔與 50 GB 的掃描手寫表格存檔有完全不同的需求。