
在企業硬體上運行微調模型:CPU vs GPU vs NPU 指南
比較 CPU、GPU 和 NPU 在企業環境中運行微調小型語言模型的技術指南。包含性能基準測試、成本分析和基礎設施團隊的決策框架。
你已經微調了你的小型語言模型,它在基準測試中表現良好。現在是基礎設施問題:你應該在什麼硬體上運行它?
這並不像「直 接買 GPU」那麼簡單。正確答案取決於你的部署規模、模型大小、延遲要求和現有基礎設施。服務單個團隊的 3B 參數模型與服務整個組織的 14B 模型有非常不同的硬體需求。
本指南比較三種加速器類型——CPU、GPU 和 NPU——附帶真實性能數字、成本分析和基礎設施團隊的決策框架。
三種加速器類型
CPU:通用基準線
資料中心的每台伺服器都有 CPU。每個工作站、每台筆記型電腦、每個虛擬機器。CPU 是任何企業中最可用的計算資源,而帶有 AVX-512 或 AMX(高級矩陣擴展)指令的現代 CPU 可以以可用速度運行量化的 SLM。
優勢:
- 零額外硬體採購——你已經擁有它們
- 沒有驅動程式問題,沒有 CUDA 相容性問題
- 在現有伺服器群中水平擴展
- 每個運維團隊都熟悉
局限性:
- 矩陣運算比 GPU 慢得多
- 對於互動式使用,實際上限制在 3B 參數以下的模型
- 與專用加速器相比,每個 token 的功耗更高
最適合: 小型模型(3B 以下)、低量部署、原型設計,以及想完全避免 GPU 採購的情況。
Shunya Labs 和類似供應商展示了 CPU 優先架構,聲稱對適合的工作負載與 GPU 部署相比降低了 20 倍成本。關鍵限定詞是「適合」——這適用於中等量的小型模型,而不是以高吞吐量運行 14B 模型。
GPU:性能標準
NVIDIA GPU 仍然是 AI 推理的預設選擇,這是有充分理由的。高記憶體頻寬、大規模並行性和成熟軟體生態系統(CUDA、cuDNN、TensorRT)的組合意味著 GPU 為語言模型推理提供最佳的原始性能。
企業 SLM 部署的相關 GPU 層級:
| GPU | VRAM | FP16 TFLOPS | 價格(約) | 目標用途 |
|---|---|---|---|---|
| RTX 4060 Ti | 16GB | 22 | $400–$500 | 單用戶、小型模型 |
| RTX 4090 | 24GB | 83 | $1,600–$2,000 | 小型團隊,最多 14B 模型 |
| L40S | 48GB | 91 | $7,000–$9,000 | 部門、多模型服務 |
| A100 | 40/80GB | 78/78 | $8,000–$15,000 | 高吞吐量生產 |
| H100 | 80GB | 267 | $25,000–$35,000 | 全組織、最大吞吐量 |
AMD 的 MI300X(192GB HBM3)正在成為 NVIDIA H100 的具成本效益的替代品,特別是在推理工作負載方面,AMD 的 ROCm 軟體堆疊已經成熟到足以用於生產。定價介於 A100 和 H100 層級之間,具有競爭力的吞吐量。
優勢:
- 任何大小模型的最高絕對吞吐量
- 具有廣泛優化工具的成熟軟體生態系統
- 從單用戶(RTX 4060)到企業(H100)的擴展
- 支援在同一硬體上進行推理和微調
局限性:
- 採購成本,特別是資料中心 GPU
- 功耗(資料中心 GPU 每張卡 300–700W)
- 跨群管理 GPU 驅動程式和 CUDA 版本
- 高端卡的供應限制(雖然在 2026 年有所改善)
最適合: 任何吞吐量或模型大小超過 CPU 或 NPU 能力的部署。這是任何有意義量的 7B 以上模型的預設選擇。
NPU:效率優先
神經處理單元是整合在現代處理器中的專用推理加速器。與 GPU(通用並行處理器,適應 AI)不同,NPU 專為神經網路推理的 矩陣運算和記憶體訪問模式而設計。
當前 NPU 實現:
| NPU | 所在產品 | TOPS (INT8) | 功耗 | 狀態 |
|---|---|---|---|---|
| Intel NPU(Meteor Lake) | Intel Core Ultra 筆電/工作站 | 10–11 | 5–15W | 可用 |
| Intel NPU(Arrow Lake) | Intel Core Ultra 200 系列 | 13 | 5–15W | 可用 |
| Qualcomm Hexagon(Snapdragon X) | Snapdragon X Elite/Plus 筆電 | 45 | 15–25W | 可用 |
| Apple Neural Engine(M4) | M4/M4 Pro/M4 Max MacBook | 38 | 10–20W | 可用 |
| AMD XDNA 2(Ryzen AI) | AMD Ryzen AI 300 系列 | 50 | 15–25W | 可用 |
優勢:
- 功耗比 GPU 顯著更低
- 內建在你的企業可能已經採購的硬體中(新筆電和工作站)
- 無需單獨採購——它在晶片上
- 靜音操作(辦公室環境中沒有 GPU 風扇噪音)
- 足夠好的量化 SLM 的單用戶互動推理
局限性:
- 比離散 GPU 絕對吞吐量更低
- 軟體生態系統仍在成熟(框架支援因廠商而異)
- 限於較小的模型(實際上限約 7B 量化)
- 性能在廠商之間差異顯著
- 多用戶服務不實用——NPU 設計用於單用戶工作負載
最適合: 個人工作站部署、邊緣推理、模型在員工筆記型電腦/桌機上運行而無需伺服器基礎設施的場景。
Microsoft 的 Foundry Local 計劃在此提供了有用的信號:它旨在在 Windows PC 上本地運行模型,針對現代設備中的 NPU 和整合 GPU 硬體。當主要平台廠商針對特定硬體進行優化時,這是生態系統走向的可靠指標。
性能基準測試
以下是抽象比較變得具體的地方。以下基準顯示了量化 7B 模型(Q4_K_M 量化,品質和速度的良好平衡)在不同硬體上的每秒 token 數。
每秒 Token 數——量化 7B 模型(Q4_K_M)
| 硬體 | Token/秒 | 備註 |
|---|---|---|
| CPU:32 核 Xeon W(伺服器) | 8–15 tok/s | 使用帶 AVX-512 的 llama.cpp |
| CPU:Intel Core Ultra 7(筆電) | 5–10 tok/s | 使用 llama.cpp |
| CPU:AMD Ryzen 9 7950X(桌機) | 10–18 tok/s | 16 核,快速記憶體有幫助 |
| GPU:RTX 4060 Ti(16GB) | 60–80 tok/s | 入門級離散 GPU |
| GPU:RTX 4090(24GB) | 80–120 tok/s | 最佳消費級 GPU |
| GPU:A100(40GB) | 100–150 tok/s | 資料中心標準 |
| GPU:H100(80GB) | 150–200 tok/s | 單 GPU 峰值性能 |
| NPU:Qualcomm Snapdragon X Elite | 20–40 tok/s | Hexagon NPU,框架依賴 |
| NPU:Apple M4 Max(Neural Engine) | 40–60 tok/s | 統一記憶體架構有幫助 |
| NPU:Intel Core Ultra(Meteor Lake NPU) | 8–15 tok/s | 早期 NPU 世代,在改善中 |
這些數字在實踐中意味著什麼
對於互動式使用(聊天機器人、人在等待的文件分析):
- 舒適: 30 個以上 token/秒。用戶看到快速、流暢的回應。
- 可接受: 15–30 token/秒。可以注意到的生成速度,但仍然可用。
- 令人沮喪: 低於 15 token/秒。用戶在逐字觀看文字出現。
對於批次處理(文件分類、夜間擷取工作):
- 吞吐量比每個查詢的速度更重要
- 以 10 tok/s 運行的 CPU 仍然可以在一夜之間處理數千份文件
- 跨多個 CPU 核心或多個 GPU 實例的並行性線性擴展
較小模型改變了等式
上述基準適用於 7B 模型。較小的模型成比例地更快:
| 硬體 | 7B(Q4)tok/s | 3.8B(Q4)tok/s | 1.5B(Q4)tok/s |
|---|---|---|---|
| CPU:32 核 Xeon | 8–15 | 15–30 | 30–60 |
| GPU:RTX 4090 | 80–120 | 140–200 | 250–400 |
| NPU:Snapdragon X Elite | 20–40 | 40–70 | 60–100 |
| Apple M4 Max | 40–60 | 70–100 | 100–160 |
現代筆電 CPU 上的 3.8B 模型(如 Phi-3 mini)每秒提供 15–30 個 token——對於互動式使用足夠舒適。在 NPU 或 Apple Silicon 上,它是 40–100 token/秒,足夠快,用戶幾乎不會注意到生成延遲。
每個 Token 的成本
原始速度不能說明全部情況。預算規劃真正重要的是成本效率:當你在硬體的使用壽命內攤銷時,每個 token 的成本是多少?
每百萬 Token 成本(攤銷 3 年)
假設:硬體以 70% 使用率每天運行 12 小時,電力成本 $0.12/kWh。
| 硬體 | 硬體成本 | 每月攤銷 | 電力/月 | Token/月(估計) | 每百萬 Token 成本 |
|---|---|---|---|---|---|
| CPU:32 核 Xeon 伺服器 | $5,000 | $139 | $40 | 1.3 億 | $1.38 |
| GPU:RTX 4090 + 伺服器 | $6,000 | $167 | $55 | 13 億 | $0.17 |
| GPU:L40S + 伺服器 | $13,000 | $361 | $70 | 19 億 | $0.23 |
| GPU:A100 + 伺服器 | $18,000 | $500 | $80 | 24 億 | $0.24 |
| GPU:H100 + 伺服器 | $38,000 | $1,056 | $120 | 32 億 | $0.37 |
| NPU:筆電(Snapdragon X) | $1,500 | $42 | $8 | 5,200 萬 | $0.96 |
| NPU:MacBook Pro M4 Max | $3,500 | $97 | $10 | 9,600 萬 | $1.11 |
出現了一些規律:
RTX 4090 是成本效率冠軍。 每百萬 token $0.17,它提供任何選項中最低的每 token 成本。這是一個 $1,600 的消費者 GPU 在 $4,400 的伺服器中——總系統成本約 $6,000。對於中小型部署,這很難超越。
資料中心 GPU(A100、H100)用成本效率換取吞吐量和可靠性。 H100 每個 token 的成本是 RTX 4090 的 2 倍,但它提供更高的絕對吞吐量、支援更大的批次大小、具有 ECC 記憶體,並且設計用於 24/7 資料中心操作。對於任務關鍵型生產工作負載,溢價是合理的。
CPU 每個 token 最昂貴,但如果你使用現有伺服器,增量硬體成本為零。如果你的伺服器在非工作時間有空閒 CPU 容量,運行推理的邊際成本本質上只是電力——每月 $40。
NPU 在成本上是中等的,但它們的真正價值在於部署簡便性。沒有伺服器基礎設施,沒有 GPU 採購,沒有專用冷卻。模型在員工已經使用的同一台筆記型電腦上運行。
量化因素
量化是將模型權重從其原始精度(通常是 FP16 或 BF16,每個權重 16 位)降低到更低精度(8、5 或 4 位)的技術。這直接影響模型大小、推理速度和輸出品質。
量化等級比較(7B 模型)
| 量化 | 位元/權重 | 模型大小 | 速度影響 | 品質影響 |
|---|---|---|---|---|
| FP16(無量化) | 16 | 約 14GB | 基準 | 基準(最佳) |
| Q8_0 | 8 | 約 7.5GB | 約 1.5 倍更快 | 品質損失可忽略 |
| Q5_K_M | 5 | 約 5.3GB | 約 2 倍更快 | 非常輕微的品質損失 |
| Q4_K_M | 4 | 約 4.4GB | 約 2.5 倍更快 | 輕微品質損失,大多數任務可接受 |
| Q4_0 | 4 | 約 4.0GB | 約 2.8 倍更快 | 細微任務上明顯的品質損失 |
| Q3_K_M | 3 | 約 3.3GB | 約 3 倍更快 | 顯著品質損失 |
| Q2_K | 2 | 約 2.7GB | 約 3.5 倍更快 | 大量品質損失,不推薦 |
企業甜蜜點:Q4_K_M
對於大多數企業工作負載,Q4_K_M 提供最佳的權衡:
- 大小縮減: 比 FP16 小 3.2 倍,7B 模型適合 4–5GB VRAM
- 速度提升: 推理比 FP16 快 2–2.5 倍
- 品質保留: 在結構化任務(分類、擷取)上退化最小。與窄型企業任務的 FP16 相比,準確率下降通常不到 1%。
何時應該使用更高精度?
- Q5_K_M: 如果你的任務涉及細微文字生成或你的微調顯示對量化的敏感性。比 Q4_K_M 多消耗約 20% VRAM,換取邊際品質提升。
- Q8_0: 用於評估和基準測試以建立品質上限,或對於每一小部分準確率都很重要的任務(醫療、法律關鍵決策)。
- FP16: 幾乎從不用於生產推理。性能損失不能為生產工作負載中的邊際品質提升辯護。
何時可以更低?
- Q3_K_M 或 Q2_K: 只有當硬體限制絕對需要時(例如,在可用記憶體 2GB 的設備上運行)。品質權衡是真實且可測量的。在部署之前進行徹底測試。
決策框架
以下是如何將你的部署場景與正確硬體匹配的方法。
單用戶工作站
場景: 一名員工將微調模型用於日常工作——文件分析、郵件分類、代碼審查。
推薦:
- 如果他們有現代筆記型電腦(2024 年以後): 使用 NPU 或整合 GPU。通過 Ollama 部署 Q4 量化的 3.8B 模型(Phi-3 mini)。不需要額外硬體。
- 如果他們有帶 GPU 的桌機: 任何帶有 8GB 以上 VRAM 的離散 GPU 都可以舒適地運行 Q4 7B 模型。即使是 RTX 3060(12GB)也可以。
- 如果沒有 GPU 且 CPU 較舊: 使用 Q4 量化的 1.5B 或 3B 模型,或考慮更換 Snapdragon X 或 M4 Mac。
預期性能: 每秒 15–60 個 token,取決於模型大小和硬體。足夠用於互動式使用。
小型團隊(5–20 名用戶)
場景: 一個團隊共享用於常見工作負載的微調模型——法律合約審查、客戶支援分類、合規性 檢查。
推薦:
- 預算選項: 團隊伺服器中的單個 RTX 4090。總計 $6,000。以可接受的延遲處理 Q4 7B 模型上的 5–15 個並發用戶。
- 生產選項: 機架式伺服器中的單個 L40S。總計 $13,000。以突發流量的餘裕處理 15–30 個並發用戶。
預期性能: 每位用戶 30–80 token/秒(取決於並發性),短查詢延遲低於 100ms。
部門(50–200 名用戶)
場景: 全部門部署——所有客服代理、所有分析師、所有法律員工。
推薦:
- 多 GPU 伺服器中的 2–4 個 RTX 4090,或 1–2 個 L40S 卡。運行 vLLM 以實現高效的批次排程和持續批次處理。
- 總成本:伺服器 $15,000–$30,000。
- 對於 200 個並發用戶,在適當的批次處理下,預期每位用戶 15–30 token/秒。
預期性能: 與雲 API 延遲相當(每個短查詢 100–300ms),具有本地硬體的成本優勢。
全組織(500 名以上用戶)
場景: 一個或多個微調模型的全公司部署,可能服務多個應用程式。
推薦:
- GPU 集群: 專用伺服器或小型機架中的 4–8 個資料中心 GPU(A100 或 H100)。
- 使用帶負載平衡的 vLLM 或 TGI 跨 GPU 實例。
- 考慮冗餘:N+1 GPU 配置用於故障轉移。
- 總成本:基礎設施 $80,000–$200,000,在這個量的等效雲 API 成本的 3–6 個月內收回成本。
預期性能: 雲競爭性延遲和吞吐量,完全資料主權,無邊際每 token 成本。
電力和冷卻考量
基礎設施團隊在規劃 GPU 部署時通常忽視電力和冷卻。以下是預算:
| 硬體 | 功耗 | 年度電力成本(@$0.12/kWh) | 冷卻開銷 |
|---|---|---|---|
| RTX 4090 | 450W TDP | 約 $473 | 標準辦公室 HVAC |
| L40S | 350W TDP | 約 $368 | 機架式冷卻 |
| A100 | 300W TDP | 約 $315 | 資料中心冷卻 |
| H100 | 700W TDP | 約 $735 | 需要資料中心冷卻 |
| NPU(筆記型電腦) | 15–25W | 約 $26 | 無(被動) |
對於 1–4 個 GPU,現有辦公室基礎設施通常能應對電力和冷卻負載。超出這個範圍,你需要帶有適當配電和冷卻容量的專用機架空間。
結論
沒有單一「最佳」硬體用於運行微調模型。正確的選擇直接對應你的部署規模:
- 個人使用: 他們已經擁有的設備上的 NPU 或 CPU。成本:$0 增量。
- 團隊使用: 共享伺服器中的單個 RTX 4090。成本:約 $6,000。
- 部門使用: 帶有 2–4 個 GPU 的多 GPU 伺服器。成本:$15,000–$30,000。
- 全組織: 資料中心 GPU 集群。成本:$80,000–$200,000。
在每種情況下,總擁有成本都是相同查詢量下等效雲 API 支出的一小部分。硬體決策不是關於是否在本地部署——高量工作負載的經濟學已經有利於它。而是關於將硬體調整到你的實際規模和成長軌跡。
從滿足你當 前需求的最小配置開始。單個 RTX 4090 伺服器是一個 $6,000 的實驗,可以為 15 人的團隊提供服務。如果結果證明擴展是合理的,則增量添加容量。GPU 伺服器不需要長期承諾或多年合約——它們是你擁有並可以重新調整用途的資本設備。
矽已經準備好了。模型已經準備好了。決策是一個直接的基礎設施規劃練習,而不是技術賭注。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

GPU Selection Guide for On-Premise AI: H100 vs A100 vs L40S vs Consumer GPUs
A detailed comparison of NVIDIA H100, A100, L40S, RTX 4090, and RTX 5090 GPUs for enterprise AI workloads. Includes performance benchmarks, cost analysis, power requirements, and use case recommendations for on-premise deployments.

Enterprise AI Capacity Planning: How to Size Your On-Premise Infrastructure
A step-by-step technical guide for sizing on-premise AI infrastructure. Covers compute, storage, network, and power requirements with a sizing worksheet and common planning mistakes to avoid.

How to Deploy a RAG Pipeline as an API Endpoint Your AI Agent Can Call
Most RAG tutorials stop at the vector store. Production AI agents need a callable retrieval endpoint with tool-calling specs. Here is how to build and deploy RAG as modular infrastructure, not embedded code.