
本地 AI 的 GPU 選擇指南:H100 vs A100 vs L40S vs 消費級 GPU
NVIDIA H100、A100、L40S、RTX 4090 和 RTX 5090 GPU 用於企業 AI 工作負載的詳細比較。包含效能基準測試、成本分析、功耗要求,以及本地部署的使用案例建議。
為本地 AI 選擇正確的 GPU,不是關於購買最強大的硬體。而是將 GPU 能力與您的實際工作負載匹配——而且價格差異足夠大,算錯這個問題會損失數萬或數十萬美元。
本指南涵蓋企業本地 AI 基礎設施中最常部署的五種 GPU,並根據工作負載類型、模型大小和預算提供具體建議。
GPU 規格一覽
| 規格 | H100 SXM | A100 SXM | L40S | RTX 4090 | RTX 5090 |
|---|---|---|---|---|---|
| VRAM | 80 GB HBM3 | 80 GB HBM2e | 48 GB GDDR6 | 24 GB GDDR6X | 32 GB GDDR7 |
| 記憶體頻寬 | 3,350 GB/s | 2,039 GB/s | 864 GB/s | 1,008 GB/s | ~1,790 GB/s |
| FP8 性能 | 3,958 TFLOPS | N/A | 733 TFLOPS | 330 TFLOPS | ~380 TFLOPS(估計) |
| FP16 性能 | 1,979 TFLOPS | 624 TFLOPS | 362 TFLOPS | 165 TFLOPS | ~190 TFLOPS(估計) |
| TDP(功耗) | 700W | 400W | 350W | 450W | 575W |
| NVLink 支援 | 是(900 GB/s) | 是(600 GB/s) | 否 | 否 | 否 |
| 每 GPU 價格 | $25,000–$30,000 | $10,000–$15,000 | $7,000–$10,000 | $1,600–$2,000 | $2,000–$2,500 |
| 外形尺寸 | SXM(需要底板) | SXM(需要底板) | PCIe | PCIe | PCIe |
| ECC 記憶體 | 是 | 是 | 是 | 否 | 否 |
| 多實例 GPU | 是(7 個實例) | 是(7 個實例) | 否 | 否 | 否 |
這個表格有幾點突出。首先,H100 的記憶體頻寬幾乎是 L40S 的 4 倍——對於性能受記憶體頻寬限制的大型語言模型推論而言,這非常重要。其次,消費級 GPU 缺乏 NVLink,限制了 多 GPU 訓練。第三,價格差距很大:一個 H100 的成本相當於 15 台 RTX 4090。
叢集配置成本
單一 GPU 價格並不能說明全貌。企業部署需要伺服器、網路、儲存和支援基礎設施。以下是三種代表性配置:
| 組件 | 8x H100 叢集 | 16x A100 叢集 | 8x L40S 伺服器 |
|---|---|---|---|
| GPU | $200,000–$240,000 | $160,000–$240,000 | $56,000–$80,000 |
| 伺服器/機箱 | $40,000–$60,000 | $50,000–$70,000 | $15,000–$25,000 |
| NVLink/NVSwitch | $30,000–$40,000 | $20,000–$30,000 | N/A(PCIe) |
| 網路 | $15,000–$25,000 | $15,000–$25,000 | $5,000–$10,000 |
| 儲存(NVMe) | $10,000–$20,000 | $10,000–$20,000 | $5,000–$10,000 |
| 總計 | ~$335,000 | ~$232,000 | ~$79,000 |
$79,000 的 8xL40S 配置通常是進入本地 AI 的組織的正確起點。它為服務大多數企業使用案例的推論工作負載提供了足夠的計算能力,以及足夠的 VRAM(每 GPU 48GB,共 384GB),用於微調最多 14B 參數的模型。
使用案例映射
按模型大小微調
您需要的 GPU 主要取決於您訓練的模型大小,以及您是在做完整微調還是 LoRA/QLoRA 等參數高效方法。
7B 參數模型(Llama 3.1 7B、Mistral 7B、Qwen2.5 7B)
- 完整微調:2x A100 80GB 或 2x H100 80GB(模型 + 優化器狀態需要約 120GB)
- LoRA/QLoRA 微調:1x L40S 48GB 或 1x RTX 4090 24GB(QLoRA 使用 4 位元量化)
- 推薦:L40S 或 RTX 4090 — 使用 H100 訓練 7B 模型是過度配置
14B 參數模型(Llama 3.1 14B、Qwen2.5 14B)
- 完整微調:4x A100 80GB 或 4x H100 80GB
- LoRA 微調:2x L40S 48GB 或 1x A100 80GB
- QLoRA 微調:1x L40S 48GB(勉強)或 1x RTX 5090 32GB
- 推薦:L40S 叢集或 A100 對 — 企業微調的最佳選擇
70B 參數模型(Llama 3.1 70B、Qwen2.5 72B)
- 完整微調:8x H100 80GB 帶 NVLink(需要 640GB 聚合 VRAM)
- LoRA 微調:4x A100 80GB 或 4x H100 80GB
- QLoRA 微調:2x L40S 48GB 或 2x A100 80GB
- 推薦:完整微調用 H100 叢集,LoRA 用 A100 — 這是資料中心 GPU 贏得其溢價的地方
推論服務
推論 GPU 需求取決於模型大小、量化級別和吞吐量需求。
單模型推論(一個模型,多個並發用戶)
| 模型大小 | 量化 | 最低 VRAM | 推薦 GPU | Tokens/秒(約) |
|---|---|---|---|---|
| 7B | FP16 | 14 GB | RTX 4090 或 L40S | 80-120 t/s |
| 7B | INT4(GPTQ/AWQ) | 4 GB | RTX 4090 | 150-200 t/s |
| 14B | FP16 | 28 GB | RTX 5090 或 L40S | 40-70 t/s |
| 14B | INT4 | 8 GB | RTX 4090 | 70-110 t/s |
| 70B | FP16 | 140 GB | 2x H100 或 2x A100 | 20-40 t/s |
| 70B | INT4 | 35 GB | L40S 或 RTX 5090 | 30-50 t/s |
多模型推論(同時服務多個模型)
這是 VRAM 成為主要限制的地方。如果您同時運行帶有嵌入模型、重新排序器和生成模型的 RAG 管道,您需要加總 VRAM 需求。一台擁有 384GB 總 VRAM 的 8xL40S 伺服器可以同時服務 8-12 個量化模型——對於為不同部門或使用案例運行不同模型的組織很有用。
H100 的多實例 GPU(MIG)功能在這裡也有幫助。您可以將單一 H100 分區為最多 7 個隔離實例,每個都有自己的 VRAM 分配,允許多個模型在沒有干擾的情況下共享 GPU。
功耗和冷卻:隱藏的成本
GPU 功耗是許多組織在採購時低估的重大持續成本。
| 配置 | GPU 功耗 | 系統總計(估計) | 年電費* |
|---|