本地 AI 的 GPU 選擇指南：H100 vs A100 vs L40S vs 消費級 GPU

為本地 AI 選擇正確的 GPU，不是關於購買最強大的硬體。而是將 GPU 能力與您的實際工作負載匹配——而且價格差異足夠大，算錯這個問題會損失數萬或數十萬美元。

本指南涵蓋企業本地 AI 基礎設施中最常部署的五種 GPU，並根據工作負載類型、模型大小和預算提供具體建議。

GPU 規格一覽

規格	H100 SXM	A100 SXM	L40S	RTX 4090	RTX 5090
VRAM	80 GB HBM3	80 GB HBM2e	48 GB GDDR6	24 GB GDDR6X	32 GB GDDR7
記憶體頻寬	3,350 GB/s	2,039 GB/s	864 GB/s	1,008 GB/s	~1,790 GB/s
FP8 性能	3,958 TFLOPS	N/A	733 TFLOPS	330 TFLOPS	~380 TFLOPS（估計）
FP16 性能	1,979 TFLOPS	624 TFLOPS	362 TFLOPS	165 TFLOPS	~190 TFLOPS（估計）
TDP（功耗）	700W	400W	350W	450W	575W
NVLink 支援	是（900 GB/s）	是（600 GB/s）	否	否	否
每 GPU 價格	$25,000–$30,000	$10,000–$15,000	$7,000–$10,000	$1,600–$2,000	$2,000–$2,500
外形尺寸	SXM（需要底板）	SXM（需要底板）	PCIe	PCIe	PCIe
ECC 記憶體	是	是	是	否	否
多實例 GPU	是（7 個實例）	是（7 個實例）	否	否	否

這個表格有幾點突出。首先，H100 的記憶體頻寬幾乎是 L40S 的 4 倍——對於性能受記憶體頻寬限制的大型語言模型推論而言，這非常重要。其次，消費級 GPU 缺乏 NVLink，限制了多 GPU 訓練。第三，價格差距很大：一個 H100 的成本相當於 15 台 RTX 4090。

叢集配置成本

單一 GPU 價格並不能說明全貌。企業部署需要伺服器、網路、儲存和支援基礎設施。以下是三種代表性配置：

組件	8x H100 叢集	16x A100 叢集	8x L40S 伺服器
GPU	$200,000–$240,000	$160,000–$240,000	$56,000–$80,000
伺服器/機箱	$40,000–$60,000	$50,000–$70,000	$15,000–$25,000
NVLink/NVSwitch	$30,000–$40,000	$20,000–$30,000	N/A（PCIe）
網路	$15,000–$25,000	$15,000–$25,000	$5,000–$10,000
儲存（NVMe）	$10,000–$20,000	$10,000–$20,000	$5,000–$10,000
總計	~$335,000	~$232,000	~$79,000

$79,000 的 8xL40S 配置通常是進入本地 AI 的組織的正確起點。它為服務大多數企業使用案例的推論工作負載提供了足夠的計算能力，以及足夠的 VRAM（每 GPU 48GB，共 384GB），用於微調最多 14B 參數的模型。

使用案例映射

按模型大小微調

您需要的 GPU 主要取決於您訓練的模型大小，以及您是在做完整微調還是 LoRA/QLoRA 等參數高效方法。

7B 參數模型（Llama 3.1 7B、Mistral 7B、Qwen2.5 7B）

完整微調：2x A100 80GB 或 2x H100 80GB（模型 + 優化器狀態需要約 120GB）
LoRA/QLoRA 微調：1x L40S 48GB 或 1x RTX 4090 24GB（QLoRA 使用 4 位元量化）
推薦：L40S 或 RTX 4090 — 使用 H100 訓練 7B 模型是過度配置

14B 參數模型（Llama 3.1 14B、Qwen2.5 14B）

完整微調：4x A100 80GB 或 4x H100 80GB
LoRA 微調：2x L40S 48GB 或 1x A100 80GB
QLoRA 微調：1x L40S 48GB（勉強）或 1x RTX 5090 32GB
推薦：L40S 叢集或 A100 對 — 企業微調的最佳選擇

70B 參數模型（Llama 3.1 70B、Qwen2.5 72B）

完整微調：8x H100 80GB 帶 NVLink（需要 640GB 聚合 VRAM）
LoRA 微調：4x A100 80GB 或 4x H100 80GB
QLoRA 微調：2x L40S 48GB 或 2x A100 80GB
推薦：完整微調用 H100 叢集，LoRA 用 A100 — 這是資料中心 GPU 贏得其溢價的地方

推論服務

推論 GPU 需求取決於模型大小、量化級別和吞吐量需求。

單模型推論（一個模型，多個並發用戶）

模型大小	量化	最低 VRAM	推薦 GPU	Tokens/秒（約）
7B	FP16	14 GB	RTX 4090 或 L40S	80-120 t/s
7B	INT4（GPTQ/AWQ）	4 GB	RTX 4090	150-200 t/s
14B	FP16	28 GB	RTX 5090 或 L40S	40-70 t/s
14B	INT4	8 GB	RTX 4090	70-110 t/s
70B	FP16	140 GB	2x H100 或 2x A100	20-40 t/s
70B	INT4	35 GB	L40S 或 RTX 5090	30-50 t/s

多模型推論（同時服務多個模型）

這是 VRAM 成為主要限制的地方。如果您同時運行帶有嵌入模型、重新排序器和生成模型的 RAG 管道，您需要加總 VRAM 需求。一台擁有 384GB 總 VRAM 的 8xL40S 伺服器可以同時服務 8-12 個量化模型——對於為不同部門或使用案例運行不同模型的組織很有用。

H100 的多實例 GPU（MIG）功能在這裡也有幫助。您可以將單一 H100 分區為最多 7 個隔離實例，每個都有自己的 VRAM 分配，允許多個模型在沒有干擾的情況下共享 GPU。

功耗和冷卻：隱藏的成本

GPU 功耗是許多組織在採購時低估的重大持續成本。

配置	GPU 功耗	系統總計（估計）	年電費*	年冷卻費*
8x H100	5,600W	~8,000W	$35,000–$50,000	$12,000–$18,000
16x A100	6,400W	~9,000W	$39,000–$55,000	$14,000–$20,000
8x L40S	2,800W	~4,000W	$17,000–$25,000	$6,000–$9,000
4x RTX 4090	1,800W	~2,500W	$11,000–$15,000	$4,000–$6,000

基於 $0.10–$0.14/kWh 的商業電費，24/7 運行

8xH100 叢集消耗約 8kW 的總系統功率。這需要專用的 30-40A 208V 電路、適當的冷卻（行內冷卻裝置或後門熱交換器），以及足夠的氣流。如果您的機房不是為這種密度設計的，改造成本可能增加 $20,000-$50,000。

總功耗 4kW 的 L40S 叢集更易管理——它適合標準機房環境，在大多數情況下不需要專業冷卻。

消費級 GPU 的論據

RTX 4090 和 RTX 5090 卡在技術上是消費類產品，但它們越來越多地出現在企業 AI 工作負載中。原因如下：

每 GB VRAM 成本：

H100：每 GB $312–$375
A100：每 GB $125–$188
L40S：每 GB $146–$208
RTX 4090：每 GB $67–$83
RTX 5090：每 GB $63–$78

在純粹的每美元/GB 基礎上，消費級 GPU 比資料中心 GPU 便宜 3-5 倍。對於只需要 VRAM 來儲存模型權重但不需要 NVLink 或 HBM 頻寬的僅推論工作負載，這個成本差異是有意義的。

消費級 GPU 表現良好的地方：

小規模微調（7B 模型使用 QLoRA）
最多 14B 參數的模型推論服務
開發和測試環境
在承諾資料中心硬體之前開始本地 AI 之旅的組織

消費級 GPU 不足的地方：

沒有 NVLink 意味著多 GPU 訓練通過 PCIe 通訊，比 NVLink 慢 5-10 倍
沒有 ECC 記憶體意味著無聲計算錯誤的風險更高（對金融或醫療 AI 很重要）
消費級 GPU 保固期為 2-3 年，而資料中心 GPU 為 5 年
NVIDIA 的最終用戶授權協議在技術上禁止 RTX 卡用於資料中心環境（執行力度不一，但這是法律風險）
較低的記憶體頻寬限制了大型模型的推論吞吐量

許多企業從消費級 GPU 開始進行初始驗證，然後轉移到 L40S 或 A100 硬體用於生產。這是一種理性的方法——在承諾超過 $200,000 的資料中心硬體之前驗證工作負載。

AMD 替代方案：MI300X

AMD 的 Instinct MI300X 值得一提。在紙面上，它很有吸引力：

192GB HBM3 記憶體（超過 H100 80GB 的 2 倍以上）
5,300 GB/s 記憶體頻寬
與 H100 有競爭力的定價（據報告每 GPU $10,000-$15,000）

VRAM 優勢對於大型模型推論很重要——單一 MI300X 可以容納需要兩個 H100 的 70B FP16 模型。

然而，生態系統差距是真實的：

CUDA 主導： 大多數 AI 框架、函式庫和優化工具是為 NVIDIA 的 CUDA 建構的。AMD 的 ROCm 技術棧正在改善，但在相容性和性能優化上仍然落後。
企業工具： NVIDIA 的生態系統包括用於推論優化的 TensorRT、Triton 推論伺服器、用於訓練的 NeMo 和用於資料處理的 RAPIDS。AMD 的等效工具還不夠成熟。
社群和支援： 當 CUDA 出現問題時，Stack Overflow 有答案。ROCm 調試仍然需要更多專業知識，通常需要供應商支援。
驅動穩定性： NVIDIA 的企業驅動程式有數十年的強化。AMD 的 ROCm 驅動程式雖然在改善，但在生產環境中的記錄較短。

對於有強大工程團隊願意投資 ROCm 專業知識的組織，MI300X 可以提供出色的性價比。對於大多數企業，NVIDIA 的生態系統優勢仍然可以證明溢價是合理的。

建議摘要

您的情況	推薦 GPU	配置	預算
剛開始，測試 AI 可行性	RTX 4090 或 RTX 5090	工作站中 2-4 個 GPU	$5,000–$10,000
生產推論，模型不超過 14B	L40S	伺服器中 4-8 個 GPU	$40,000–$80,000
微調 + 推論，模型不超過 14B	L40S 或 A100	8 個 GPU 配快速儲存	$80,000–$150,000
訓練 + 推論，模型最大 70B	H100	8 個 GPU 帶 NVLink	~$335,000
最大推論吞吐量	帶 MIG 的 H100	8 個以上 GPU，按模型分區	$335,000 以上
注重預算，願意投資 ROCm	MI300X	4-8 個 GPU	$60,000–$120,000

實用起點

如果您讀這份指南是因為您的組織正在首次評估本地 AI，以下是實用路徑：

從 2-4x RTX 4090/5090 開始（$5,000-$10,000）。使用它們進行原型設計、測試模型品質，並驗證本地 AI 是否解決了您的業務問題。
轉移到 4-8x L40S（$40,000-$80,000），當您已驗證使用案例並需要生產級可靠性時。L40S 為您提供 ECC 記憶體、更好的熱管理，以及大多數企業模型所需的足夠 VRAM。
擴展到 A100 或 H100（$150,000-$335,000 以上），僅當您擁有需要資料中心 GPU 提供的記憶體頻寬、NVLink 互連或多實例 GPU 功能的已驗證工作負載時。

這種分階段方法讓您在提交更大預算之前在每個步驟進行驗證。最壞的結果是為可以在 $79,000 的 L40S 硬體上運行的工作負載購買 $335,000 的 H100 叢集——或者更糟，為根本不產生業務價值的 AI 專案購買。

不要買您想要的 GPU。買您的工作負載需要的 GPU。

本地 AI 的 GPU 選擇指南：H100 vs A100 vs L40S vs 消費級 GPU

GPU 規格一覽

叢集配置成本

使用案例映射

按模型大小微調

推論服務

功耗和冷卻：隱藏的成本

消費級 GPU 的論據

AMD 替代方案：MI300X

建議摘要

實用起點

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

企業 AI 容量規劃：如何調整本地基礎設施規模

在企業硬體上運行微調模型：CPU vs GPU vs NPU 指南

自建 vs 購買 vs 租用：企業 AI 基礎設施決策矩陣