在企業硬體上運行微調模型：CPU vs GPU vs NPU 指南

你已經微調了你的小型語言模型，它在基準測試中表現良好。現在是基礎設施問題：你應該在什麼硬體上運行它？

這並不像「直接買 GPU」那麼簡單。正確答案取決於你的部署規模、模型大小、延遲要求和現有基礎設施。服務單個團隊的 3B 參數模型與服務整個組織的 14B 模型有非常不同的硬體需求。

本指南比較三種加速器類型——CPU、GPU 和 NPU——附帶真實性能數字、成本分析和基礎設施團隊的決策框架。

三種加速器類型

CPU：通用基準線

資料中心的每台伺服器都有 CPU。每個工作站、每台筆記型電腦、每個虛擬機器。CPU 是任何企業中最可用的計算資源，而帶有 AVX-512 或 AMX（高級矩陣擴展）指令的現代 CPU 可以以可用速度運行量化的 SLM。

優勢：

零額外硬體採購——你已經擁有它們
沒有驅動程式問題，沒有 CUDA 相容性問題
在現有伺服器群中水平擴展
每個運維團隊都熟悉

局限性：

矩陣運算比 GPU 慢得多
對於互動式使用，實際上限制在 3B 參數以下的模型
與專用加速器相比，每個 token 的功耗更高

最適合： 小型模型（3B 以下）、低量部署、原型設計，以及想完全避免 GPU 採購的情況。

Shunya Labs 和類似供應商展示了 CPU 優先架構，聲稱對適合的工作負載與 GPU 部署相比降低了 20 倍成本。關鍵限定詞是「適合」——這適用於中等量的小型模型，而不是以高吞吐量運行 14B 模型。

GPU：性能標準

NVIDIA GPU 仍然是 AI 推理的預設選擇，這是有充分理由的。高記憶體頻寬、大規模並行性和成熟軟體生態系統（CUDA、cuDNN、TensorRT）的組合意味著 GPU 為語言模型推理提供最佳的原始性能。

企業 SLM 部署的相關 GPU 層級：

GPU	VRAM	FP16 TFLOPS	價格（約）	目標用途
RTX 4060 Ti	16GB	22	$400–$500	單用戶、小型模型
RTX 4090	24GB	83	$1,600–$2,000	小型團隊，最多 14B 模型
L40S	48GB	91	$7,000–$9,000	部門、多模型服務
A100	40/80GB	78/78	$8,000–$15,000	高吞吐量生產
H100	80GB	267	$25,000–$35,000	全組織、最大吞吐量

AMD 的 MI300X（192GB HBM3）正在成為 NVIDIA H100 的具成本效益的替代品，特別是在推理工作負載方面，AMD 的 ROCm 軟體堆疊已經成熟到足以用於生產。定價介於 A100 和 H100 層級之間，具有競爭力的吞吐量。

優勢：

任何大小模型的最高絕對吞吐量
具有廣泛優化工具的成熟軟體生態系統
從單用戶（RTX 4060）到企業（H100）的擴展
支援在同一硬體上進行推理和微調

局限性：

採購成本，特別是資料中心 GPU
功耗（資料中心 GPU 每張卡 300–700W）
跨群管理 GPU 驅動程式和 CUDA 版本
高端卡的供應限制（雖然在 2026 年有所改善）

最適合： 任何吞吐量或模型大小超過 CPU 或 NPU 能力的部署。這是任何有意義量的 7B 以上模型的預設選擇。

NPU：效率優先

神經處理單元是整合在現代處理器中的專用推理加速器。與 GPU（通用並行處理器，適應 AI）不同，NPU 專為神經網路推理的矩陣運算和記憶體訪問模式而設計。

當前 NPU 實現：

NPU	所在產品	TOPS (INT8)	功耗	狀態
Intel NPU（Meteor Lake）	Intel Core Ultra 筆電/工作站	10–11	5–15W	可用
Intel NPU（Arrow Lake）	Intel Core Ultra 200 系列	13	5–15W	可用
Qualcomm Hexagon（Snapdragon X）	Snapdragon X Elite/Plus 筆電	45	15–25W	可用
Apple Neural Engine（M4）	M4/M4 Pro/M4 Max MacBook	38	10–20W	可用
AMD XDNA 2（Ryzen AI）	AMD Ryzen AI 300 系列	50	15–25W	可用

優勢：

功耗比 GPU 顯著更低
內建在你的企業可能已經採購的硬體中（新筆電和工作站）
無需單獨採購——它在晶片上
靜音操作（辦公室環境中沒有 GPU 風扇噪音）
足夠好的量化 SLM 的單用戶互動推理

局限性：

比離散 GPU 絕對吞吐量更低
軟體生態系統仍在成熟（框架支援因廠商而異）
限於較小的模型（實際上限約 7B 量化）
性能在廠商之間差異顯著
多用戶服務不實用——NPU 設計用於單用戶工作負載

最適合： 個人工作站部署、邊緣推理、模型在員工筆記型電腦/桌機上運行而無需伺服器基礎設施的場景。

Microsoft 的 Foundry Local 計劃在此提供了有用的信號：它旨在在 Windows PC 上本地運行模型，針對現代設備中的 NPU 和整合 GPU 硬體。當主要平台廠商針對特定硬體進行優化時，這是生態系統走向的可靠指標。

性能基準測試

以下是抽象比較變得具體的地方。以下基準顯示了量化 7B 模型（Q4_K_M 量化，品質和速度的良好平衡）在不同硬體上的每秒 token 數。

每秒 Token 數——量化 7B 模型（Q4_K_M）

硬體	Token/秒	備註
CPU：32 核 Xeon W（伺服器）	8–15 tok/s	使用帶 AVX-512 的 llama.cpp
CPU：Intel Core Ultra 7（筆電）	5–10 tok/s	使用 llama.cpp
CPU：AMD Ryzen 9 7950X（桌機）	10–18 tok/s	16 核，快速記憶體有幫助
GPU：RTX 4060 Ti（16GB）	60–80 tok/s	入門級離散 GPU
GPU：RTX 4090（24GB）	80–120 tok/s	最佳消費級 GPU
GPU：A100（40GB）	100–150 tok/s	資料中心標準
GPU：H100（80GB）	150–200 tok/s	單 GPU 峰值性能
NPU：Qualcomm Snapdragon X Elite	20–40 tok/s	Hexagon NPU，框架依賴
NPU：Apple M4 Max（Neural Engine）	40–60 tok/s	統一記憶體架構有幫助
NPU：Intel Core Ultra（Meteor Lake NPU）	8–15 tok/s	早期 NPU 世代，在改善中

這些數字在實踐中意味著什麼

對於互動式使用（聊天機器人、人在等待的文件分析）：

舒適： 30 個以上 token/秒。用戶看到快速、流暢的回應。
可接受： 15–30 token/秒。可以注意到的生成速度，但仍然可用。
令人沮喪： 低於 15 token/秒。用戶在逐字觀看文字出現。

對於批次處理（文件分類、夜間擷取工作）：

吞吐量比每個查詢的速度更重要
以 10 tok/s 運行的 CPU 仍然可以在一夜之間處理數千份文件
跨多個 CPU 核心或多個 GPU 實例的並行性線性擴展

較小模型改變了等式

上述基準適用於 7B 模型。較小的模型成比例地更快：

硬體	7B（Q4）tok/s	3.8B（Q4）tok/s	1.5B（Q4）tok/s
CPU：32 核 Xeon	8–15	15–30	30–60
GPU：RTX 4090	80–120	140–200	250–400
NPU：Snapdragon X Elite	20–40	40–70	60–100
Apple M4 Max	40–60	70–100	100–160

現代筆電 CPU 上的 3.8B 模型（如 Phi-3 mini）每秒提供 15–30 個 token——對於互動式使用足夠舒適。在 NPU 或 Apple Silicon 上，它是 40–100 token/秒，足夠快，用戶幾乎不會注意到生成延遲。

每個 Token 的成本

原始速度不能說明全部情況。預算規劃真正重要的是成本效率：當你在硬體的使用壽命內攤銷時，每個 token 的成本是多少？

每百萬 Token 成本（攤銷 3 年）

假設：硬體以 70% 使用率每天運行 12 小時，電力成本 $0.12/kWh。

硬體	硬體成本	每月攤銷	電力/月	Token/月（估計）	每百萬 Token 成本
CPU：32 核 Xeon 伺服器	$5,000	$139	$40	1.3 億	$1.38
GPU：RTX 4090 + 伺服器	$6,000	$167	$55	13 億	$0.17
GPU：L40S + 伺服器	$13,000	$361	$70	19 億	$0.23
GPU：A100 + 伺服器	$18,000	$500	$80	24 億	$0.24
GPU：H100 + 伺服器	$38,000	$1,056	$120	32 億	$0.37
NPU：筆電（Snapdragon X）	$1,500	$42	$8	5,200 萬	$0.96
NPU：MacBook Pro M4 Max	$3,500	$97	$10	9,600 萬	$1.11

出現了一些規律：

RTX 4090 是成本效率冠軍。 每百萬 token $0.17，它提供任何選項中最低的每 token 成本。這是一個 $1,600 的消費者 GPU 在 $4,400 的伺服器中——總系統成本約 $6,000。對於中小型部署，這很難超越。

資料中心 GPU（A100、H100）用成本效率換取吞吐量和可靠性。 H100 每個 token 的成本是 RTX 4090 的 2 倍，但它提供更高的絕對吞吐量、支援更大的批次大小、具有 ECC 記憶體，並且設計用於 24/7 資料中心操作。對於任務關鍵型生產工作負載，溢價是合理的。

CPU 每個 token 最昂貴，但如果你使用現有伺服器，增量硬體成本為零。如果你的伺服器在非工作時間有空閒 CPU 容量，運行推理的邊際成本本質上只是電力——每月 $40。

NPU 在成本上是中等的，但它們的真正價值在於部署簡便性。沒有伺服器基礎設施，沒有 GPU 採購，沒有專用冷卻。模型在員工已經使用的同一台筆記型電腦上運行。

量化因素

量化是將模型權重從其原始精度（通常是 FP16 或 BF16，每個權重 16 位）降低到更低精度（8、5 或 4 位）的技術。這直接影響模型大小、推理速度和輸出品質。

量化等級比較（7B 模型）

量化	位元/權重	模型大小	速度影響	品質影響
FP16（無量化）	16	約 14GB	基準	基準（最佳）
Q8_0	8	約 7.5GB	約 1.5 倍更快	品質損失可忽略
Q5_K_M	5	約 5.3GB	約 2 倍更快	非常輕微的品質損失
Q4_K_M	4	約 4.4GB	約 2.5 倍更快	輕微品質損失，大多數任務可接受
Q4_0	4	約 4.0GB	約 2.8 倍更快	細微任務上明顯的品質損失
Q3_K_M	3	約 3.3GB	約 3 倍更快	顯著品質損失
Q2_K	2	約 2.7GB	約 3.5 倍更快	大量品質損失，不推薦

企業甜蜜點：Q4_K_M

對於大多數企業工作負載，Q4_K_M 提供最佳的權衡：

大小縮減： 比 FP16 小 3.2 倍，7B 模型適合 4–5GB VRAM
速度提升： 推理比 FP16 快 2–2.5 倍
品質保留： 在結構化任務（分類、擷取）上退化最小。與窄型企業任務的 FP16 相比，準確率下降通常不到 1%。

何時應該使用更高精度？

Q5_K_M： 如果你的任務涉及細微文字生成或你的微調顯示對量化的敏感性。比 Q4_K_M 多消耗約 20% VRAM，換取邊際品質提升。
Q8_0： 用於評估和基準測試以建立品質上限，或對於每一小部分準確率都很重要的任務（醫療、法律關鍵決策）。
FP16： 幾乎從不用於生產推理。性能損失不能為生產工作負載中的邊際品質提升辯護。

何時可以更低？

Q3_K_M 或 Q2_K： 只有當硬體限制絕對需要時（例如，在可用記憶體 2GB 的設備上運行）。品質權衡是真實且可測量的。在部署之前進行徹底測試。

決策框架

以下是如何將你的部署場景與正確硬體匹配的方法。

單用戶工作站

場景： 一名員工將微調模型用於日常工作——文件分析、郵件分類、代碼審查。

推薦：

如果他們有現代筆記型電腦（2024 年以後）： 使用 NPU 或整合 GPU。通過 Ollama 部署 Q4 量化的 3.8B 模型（Phi-3 mini）。不需要額外硬體。
如果他們有帶 GPU 的桌機： 任何帶有 8GB 以上 VRAM 的離散 GPU 都可以舒適地運行 Q4 7B 模型。即使是 RTX 3060（12GB）也可以。
如果沒有 GPU 且 CPU 較舊： 使用 Q4 量化的 1.5B 或 3B 模型，或考慮更換 Snapdragon X 或 M4 Mac。

預期性能： 每秒 15–60 個 token，取決於模型大小和硬體。足夠用於互動式使用。

小型團隊（5–20 名用戶）

場景： 一個團隊共享用於常見工作負載的微調模型——法律合約審查、客戶支援分類、合規性檢查。

推薦：

預算選項： 團隊伺服器中的單個 RTX 4090。總計 $6,000。以可接受的延遲處理 Q4 7B 模型上的 5–15 個並發用戶。
生產選項： 機架式伺服器中的單個 L40S。總計 $13,000。以突發流量的餘裕處理 15–30 個並發用戶。

預期性能： 每位用戶 30–80 token/秒（取決於並發性），短查詢延遲低於 100ms。

部門（50–200 名用戶）

場景： 全部門部署——所有客服代理、所有分析師、所有法律員工。

推薦：

多 GPU 伺服器中的 2–4 個 RTX 4090，或 1–2 個 L40S 卡。運行 vLLM 以實現高效的批次排程和持續批次處理。
總成本：伺服器 $15,000–$30,000。
對於 200 個並發用戶，在適當的批次處理下，預期每位用戶 15–30 token/秒。

預期性能： 與雲 API 延遲相當（每個短查詢 100–300ms），具有本地硬體的成本優勢。

全組織（500 名以上用戶）

場景： 一個或多個微調模型的全公司部署，可能服務多個應用程式。

推薦：

GPU 集群： 專用伺服器或小型機架中的 4–8 個資料中心 GPU（A100 或 H100）。
使用帶負載平衡的 vLLM 或 TGI 跨 GPU 實例。
考慮冗餘：N+1 GPU 配置用於故障轉移。
總成本：基礎設施 $80,000–$200,000，在這個量的等效雲 API 成本的 3–6 個月內收回成本。

預期性能： 雲競爭性延遲和吞吐量，完全資料主權，無邊際每 token 成本。

電力和冷卻考量

基礎設施團隊在規劃 GPU 部署時通常忽視電力和冷卻。以下是預算：

硬體	功耗	年度電力成本（@$0.12/kWh）	冷卻開銷
RTX 4090	450W TDP	約 $473	標準辦公室 HVAC
L40S	350W TDP	約 $368	機架式冷卻
A100	300W TDP	約 $315	資料中心冷卻
H100	700W TDP	約 $735	需要資料中心冷卻
NPU（筆記型電腦）	15–25W	約 $26	無（被動）

對於 1–4 個 GPU，現有辦公室基礎設施通常能應對電力和冷卻負載。超出這個範圍，你需要帶有適當配電和冷卻容量的專用機架空間。

結論

沒有單一「最佳」硬體用於運行微調模型。正確的選擇直接對應你的部署規模：

個人使用： 他們已經擁有的設備上的 NPU 或 CPU。成本：$0 增量。
團隊使用： 共享伺服器中的單個 RTX 4090。成本：約 $6,000。
部門使用： 帶有 2–4 個 GPU 的多 GPU 伺服器。成本：$15,000–$30,000。
全組織： 資料中心 GPU 集群。成本：$80,000–$200,000。

在每種情況下，總擁有成本都是相同查詢量下等效雲 API 支出的一小部分。硬體決策不是關於是否在本地部署——高量工作負載的經濟學已經有利於它。而是關於將硬體調整到你的實際規模和成長軌跡。

從滿足你當前需求的最小配置開始。單個 RTX 4090 伺服器是一個 $6,000 的實驗，可以為 15 人的團隊提供服務。如果結果證明擴展是合理的，則增量添加容量。GPU 伺服器不需要長期承諾或多年合約——它們是你擁有並可以重新調整用途的資本設備。

矽已經準備好了。模型已經準備好了。決策是一個直接的基礎設施規劃練習，而不是技術賭注。

在企業硬體上運行微調模型：CPU vs GPU vs NPU 指南

三種加速器類型

CPU：通用基準線

GPU：性能標準

NPU：效率優先

性能基準測試

每秒 Token 數——量化 7B 模型（Q4_K_M）

這些數字在實踐中意味著什麼

較小模型改變了等式

每個 Token 的成本

每百萬 Token 成本（攤銷 3 年）

量化因素

量化等級比較（7B 模型）

企業甜蜜點：Q4_K_M

決策框架

單用戶工作站

小型團隊（5–20 名用戶）

部門（50–200 名用戶）

全組織（500 名以上用戶）

電力和冷卻考量

結論

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

本地 AI 的 GPU 選擇指南：H100 vs A100 vs L40S vs 消費級 GPU

企業 AI 容量規劃：如何調整本地基礎設施規模

如何將 RAG 管道部署為你的 AI 代理可以呼叫的 API 端點