
本地 AI 的 GPU 選擇指南:H100 vs A100 vs L40S vs 消費級 GPU
NVIDIA H100、A100、L40S、RTX 4090 和 RTX 5090 GPU 用於企業 AI 工作負載的詳細比較。包含效能基準測試、成本分析、功耗要求,以及本地部署的使用案例建議。
為本地 AI 選擇正確的 GPU,不是關於購買最強大的硬體。而是將 GPU 能力與您的實際工作負載匹配——而且價格差異足夠大,算錯這個問題會損失數萬或數十萬美元。
本指南涵蓋企業本地 AI 基礎設施中最常部署的五種 GPU,並根據工作負載類型、模型大小和預算提供具體建議。
GPU 規格一覽
| 規格 | H100 SXM | A100 SXM | L40S | RTX 4090 | RTX 5090 |
|---|---|---|---|---|---|
| VRAM | 80 GB HBM3 | 80 GB HBM2e | 48 GB GDDR6 | 24 GB GDDR6X | 32 GB GDDR7 |
| 記憶體頻寬 | 3,350 GB/s | 2,039 GB/s | 864 GB/s | 1,008 GB/s | ~1,790 GB/s |
| FP8 性能 | 3,958 TFLOPS | N/A | 733 TFLOPS | 330 TFLOPS | ~380 TFLOPS(估計) |
| FP16 性能 | 1,979 TFLOPS | 624 TFLOPS | 362 TFLOPS | 165 TFLOPS | ~190 TFLOPS(估計) |
| TDP(功耗) | 700W | 400W | 350W | 450W | 575W |
| NVLink 支援 | 是(900 GB/s) | 是(600 GB/s) | 否 | 否 | 否 |
| 每 GPU 價格 | $25,000–$30,000 | $10,000–$15,000 | $7,000–$10,000 | $1,600–$2,000 | $2,000–$2,500 |
| 外形尺寸 | SXM(需要底板) | SXM(需要底板) | PCIe | PCIe | PCIe |
| ECC 記憶體 | 是 | 是 | 是 | 否 | 否 |
| 多實例 GPU | 是(7 個實例) | 是(7 個實例) | 否 | 否 | 否 |
這個表格有幾點突出。首先,H100 的記憶體頻寬幾乎是 L40S 的 4 倍——對於性能受記憶體頻寬限制的大型語言模型推論而言,這非常重要。其次,消費級 GPU 缺乏 NVLink,限制了多 GPU 訓練。第三,價格差距很大:一個 H100 的成本相當於 15 台 RTX 4090。
叢集配置成本
單一 GPU 價格並不能說明全貌。企業部署需要伺服器、網路、儲存和支援基礎設施。以下是三種代表性配置:
| 組件 | 8x H100 叢集 | 16x A100 叢集 | 8x L40S 伺服器 |
|---|---|---|---|
| GPU | $200,000–$240,000 | $160,000–$240,000 | $56,000–$80,000 |
| 伺服器/機箱 | $40,000–$60,000 | $50,000–$70,000 | $15,000–$25,000 |
| NVLink/NVSwitch | $30,000–$40,000 | $20,000–$30,000 | N/A(PCIe) |
| 網路 | $15,000–$25,000 | $15,000–$25,000 | $5,000–$10,000 |
| 儲存(NVMe) | $10,000–$20,000 | $10,000–$20,000 | $5,000–$10,000 |
| 總計 | ~$335,000 | ~$232,000 | ~$79,000 |
$79,000 的 8xL40S 配置通常是進入本地 AI 的組織的正確起點。它為服務大多數企業使用案例的推論工作負載提供了足夠的計算能力,以及足夠的 VRAM(每 GPU 48GB,共 384GB),用於微調最多 14B 參數的模型。
使用案例映射
按模型大小微調
您需要的 GPU 主要取決於您訓練的模型大小,以及您是在做完整微調還是 LoRA/QLoRA 等參數高效方法。
7B 參數模型(Llama 3.1 7B、Mistral 7B、Qwen2.5 7B)
- 完整微調:2x A100 80GB 或 2x H100 80GB(模型 + 優化器狀態需要約 120GB)
- LoRA/QLoRA 微調:1x L40S 48GB 或 1x RTX 4090 24GB(QLoRA 使用 4 位元量化)
- 推薦:L40S 或 RTX 4090 — 使用 H100 訓練 7B 模型是過度配置
14B 參數 模型(Llama 3.1 14B、Qwen2.5 14B)
- 完整微調:4x A100 80GB 或 4x H100 80GB
- LoRA 微調:2x L40S 48GB 或 1x A100 80GB
- QLoRA 微調:1x L40S 48GB(勉強)或 1x RTX 5090 32GB
- 推薦:L40S 叢集或 A100 對 — 企業微調的最佳選擇
70B 參數模型(Llama 3.1 70B、Qwen2.5 72B)
- 完整微調:8x H100 80GB 帶 NVLink(需要 640GB 聚合 VRAM)
- LoRA 微調:4x A100 80GB 或 4x H100 80GB
- QLoRA 微調:2x L40S 48GB 或 2x A100 80GB
- 推薦:完整微調用 H100 叢集,LoRA 用 A100 — 這是資料中心 GPU 贏得其溢價的地方
推論服務
推論 GPU 需求取決於模型大小、量化級別和吞吐量需求。
單模型推論(一個模型,多個並發用戶)
| 模型大小 | 量化 | 最低 VRAM | 推薦 GPU | Tokens/秒(約) |
|---|---|---|---|---|
| 7B | FP16 | 14 GB | RTX 4090 或 L40S | 80-120 t/s |
| 7B | INT4(GPTQ/AWQ) | 4 GB | RTX 4090 | 150-200 t/s |
| 14B | FP16 | 28 GB | RTX 5090 或 L40S | 40-70 t/s |
| 14B | INT4 | 8 GB | RTX 4090 | 70-110 t/s |
| 70B | FP16 | 140 GB | 2x H100 或 2x A100 | 20-40 t/s |
| 70B | INT4 | 35 GB | L40S 或 RTX 5090 | 30-50 t/s |
多模型推論(同時服務多個模型)
這是 VRAM 成為主要限制的地方。如果您同時運行帶有嵌入模型、重新排序器和生成模型的 RAG 管道,您需要加總 VRAM 需求。一台擁有 384GB 總 VRAM 的 8xL40S 伺服器可以同時服務 8-12 個量化模型——對於為不同部門或使用案例運行不同模型的組織很有用。
H100 的多實例 GPU(MIG)功能在這裡也有幫助。您可以將單一 H100 分區為最多 7 個隔離實例,每個都有自己的 VRAM 分配,允許多個模型在沒有干擾的情況下共享 GPU。
功耗和冷卻:隱藏的成本
GPU 功耗是許多組織在採購時低估的重大持續成本。
| 配置 | GPU 功耗 | 系統總計(估計) | 年電費* | 年冷卻費* |
|---|---|---|---|---|
| 8x H100 | 5,600W | ~8,000W | $35,000–$50,000 | $12,000–$18,000 |
| 16x A100 | 6,400W | ~9,000W | $39,000–$55,000 | $14,000–$20,000 |
| 8x L40S | 2,800W | ~4,000W | $17,000–$25,000 | $6,000–$9,000 |
| 4x RTX 4090 | 1,800W | ~2,500W | $11,000–$15,000 | $4,000–$6,000 |
基於 $0.10–$0.14/kWh 的商業電費,24/7 運行
8xH100 叢集消耗約 8kW 的總系統功率。這需要專用的 30-40A 208V 電路、適當的冷卻(行內冷卻裝置或後門熱交換器),以及足夠的氣流。如果您的機房不是為這種密度設計的,改造成本可能增加 $20,000-$50,000。
總功耗 4kW 的 L40S 叢集更易管理——它適合標準機房環境,在大多數情況下不需要專業冷卻。
消費級 GPU 的論據
RTX 4090 和 RTX 5090 卡在技術上是消費類產品,但它們越來越多地出現在企業 AI 工作負載中。原因如下:
每 GB VRAM 成本:
- H100:每 GB $312–$375
- A100:每 GB $125–$188
- L40S:每 GB $146–$208
- RTX 4090:每 GB $67–$83
- RTX 5090:每 GB $63–$78
在純粹的每美元/GB 基礎上,消費級 GPU 比資料中心 GPU 便宜 3-5 倍。對於只需要 VRAM 來儲存模型權重但不需要 NVLink 或 HBM 頻寬的僅推論工作負載,這個成本差異是有意義的。
消費級 GPU 表現良好的地方:
- 小規模微調(7B 模型使用 QLoRA)
- 最多 14B 參數的模型推論服務
- 開發和測試環境
- 在承諾資料中心硬體之前開始本地 AI 之旅的組織
消費級 GPU 不足的地方:
- 沒有 NVLink 意味著多 GPU 訓練通過 PCIe 通訊,比 NVLink 慢 5-10 倍
- 沒有 ECC 記憶體意味著無聲計算錯誤的風險更高(對金融或醫療 AI 很重要)
- 消費級 GPU 保固期為 2-3 年,而資料中心 GPU 為 5 年
- NVIDIA 的最終用戶授權協議在技術上禁止 RTX 卡用於資料中心環境(執行力度不一,但這是法律風險)
- 較低的記憶體頻寬限制了大型模型的推論吞吐量
許多企業從消費級 GPU 開始進行初始驗證,然後轉移到 L40S 或 A100 硬體用於生產。這是一種理性的方法——在承諾超過 $200,000 的資料中心硬體之前驗證工作負載。
AMD 替代方案:MI300X
AMD 的 Instinct MI300X 值得一提。在紙面上,它很有吸引力:
- 192GB HBM3 記憶體(超過 H100 80GB 的 2 倍以上)
- 5,300 GB/s 記憶體頻寬
- 與 H100 有競爭力的定價(據報告每 GPU $10,000-$15,000)
VRAM 優勢對於大型模型推論很重要——單一 MI300X 可以容納需要兩個 H100 的 70B FP16 模型。
然而,生態系統差距是真實的:
- CUDA 主導: 大多數 AI 框架、函式庫和優化工具是為 NVIDIA 的 CUDA 建構的。AMD 的 ROCm 技術棧正在改善,但在相容性和性能優化上仍然落後。
- 企業工具: NVIDIA 的生態系統包括用於推論優化的 TensorRT、Triton 推論伺服器、用於訓練的 NeMo 和用於資料處理的 RAPIDS。AMD 的等效工具還不夠成熟。
- 社群和支援: 當 CUDA 出現問題時,Stack Overflow 有答案。ROCm 調試仍然需要更多專業知識,通常需要供應商支援。
- 驅動穩定性: NVIDIA 的企業驅動程式有數十年的強化。AMD 的 ROCm 驅動程式雖然在改善,但在生產環境中的記錄較短。
對於有強大工程團隊願意投資 ROCm 專業知識的組織,MI300X 可以提供出色的性價比。對於大多數企業,NVIDIA 的生態系統優勢仍然可以證明溢價是合理的。
建議摘要
| 您的情況 | 推薦 GPU | 配置 | 預算 |
|---|---|---|---|
| 剛開始,測試 AI 可行性 | RTX 4090 或 RTX 5090 | 工作站中 2-4 個 GPU | $5,000–$10,000 |
| 生產推論,模型不超過 14B | L40S | 伺服器中 4-8 個 GPU | $40,000–$80,000 |
| 微調 + 推論,模型不超過 14B | L40S 或 A100 | 8 個 GPU 配快速儲存 | $80,000–$150,000 |
| 訓練 + 推論,模型最大 70B | H100 | 8 個 GPU 帶 NVLink | ~$335,000 |
| 最大推論吞吐量 | 帶 MIG 的 H100 | 8 個以上 GPU,按模型分區 | $335,000 以上 |
| 注重預算,願意投資 ROCm | MI300X | 4-8 個 GPU | $60,000–$120,000 |
實用起點
如果您讀這份指南是因為您的組織正在首次評估本地 AI,以下是實用路徑:
-
從 2-4x RTX 4090/5090 開始($5,000-$10,000)。使用它們進行原型設計、測試模型品質,並驗證本地 AI 是否解決了您的業務問題。
-
轉移到 4-8x L40S($40,000-$80,000),當您已驗證使用案例並需要生產級可靠性時。L40S 為您提供 ECC 記憶體、更好的熱管理,以及大多數企業模型所需的足夠 VRAM。
-
擴展到 A100 或 H100($150,000-$335,000 以上),僅當您擁有需要資料中心 GPU 提供的記憶體頻寬、NVLink 互連或多實例 GPU 功能的已驗證工作負載時。
這種分階段方法讓您在提交更大預算之前在每個步驟進行驗證。最壞的結果是為可以在 $79,000 的 L40S 硬體上運行的工作負載購買 $335,000 的 H100 叢集——或者更糟,為根本不產生業務價值的 AI 專案購買。
不要買您想要的 GPU。買您的工作負載需要的 GPU。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

企業 AI 容量規劃:如何調整本地基礎設施規模
本地 AI 基礎設施規模調整的逐步技術指南。涵蓋計算、儲存、網路和電力需求,附帶規模調整工作表及應避免的常見規劃錯誤。

在企業硬體上運行微調模型:CPU vs GPU vs NPU 指南
比較 CPU、GPU 和 NPU 在企業環境中運行微調小型語言模型的技術指南。包含性能基準測試、成本分析和基礎設施團隊的決策框架。

自建 vs 購買 vs 租用:企業 AI 基礎設施決策矩陣
比較自建 AI 基礎設施、購買預配置 AI 設備和租用雲端 GPU 實例的結構化決策矩陣——包含三年 TCO 分析、部署時間線和基於工作負載的推薦框架。