What is GPU Memory（GPU 記憶體／VRAM）?

圖形處理器上的專用高頻寬記憶體，在訓練和推論期間儲存模型權重、激活值和梯度。

Definition

GPU 記憶體（VRAM）是位於圖形處理器上的高頻寬記憶體。在機器學習中，GPU 記憶體是決定哪些模型可以在特定硬體上訓練或服務的主要瓶頸。訓練期間，GPU 記憶體必須同時容納模型權重、優化器狀態、梯度和中間激活值。推論期間，它容納模型權重和隨上下文長度增長的鍵值快取。

7B 參數模型在 FP16 精度下僅權重就需要約 14 GB VRAM。訓練時使用 Adam 優化器，記憶體需求膨脹到約 84 GB。這種記憶體牆是量化、梯度檢查點和參數高效微調等技術存在的主要原因。

GPU 記憶體是 LLM 工作中最重要的單一硬體限制。它決定模型是否能被載入、訓練時的批次大小、推論時的上下文視窗長度，以及服務系統能處理的並發請求數量。每種優化技術本質上都是為了繞過 GPU 記憶體限制。

訓練期間，GPU 記憶體在多個類別間分配：模型參數、梯度、Adam 優化器狀態和中間激活值。推論期間，記憶體使用由模型權重和 KV cache 主導。量化減少權重記憶體，而 KV cache 壓縮和分頁注意力優化快取記憶體佔用。

團隊想在 2x RTX 4090 GPU（48 GB 總 VRAM）上微調 Llama 3 8B。完整微調需約 100 GB——不可能。使用 QLoRA 和梯度檢查點，記憶體佔用降至 18 GB，舒適地適合單一 GPU。

Ertas Studio 自動估算每個訓練配置的 GPU 記憶體需求並推薦優化設定，使微調在消費級和中階硬體上可用。

Gradient Accumulation

Inference

KV Cache

QLoRA

Quantization

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.