What is GPU Memory(GPU 記憶體/VRAM)?
圖形處理器上的專用高頻寬記憶體,在訓練和推論期間儲存模型權重、激活值和梯度。
Definition
GPU 記憶體(VRAM)是位於圖形處理器上的高頻寬記憶體。在機器學習中,GPU 記憶體是決定哪些模型可以在特定硬體上訓練或服務的主要瓶頸。訓練期間,GPU 記憶體必須同時容納模型權重、優化器狀態、梯度和中間激活值。推論期間,它容納模型權重和隨上下文長度增長的鍵值快取。
7B 參數模型在 FP16 精度下僅權重就需要約 14 GB VRAM。訓練時使用 Adam 優化器,記憶體需求膨脹到約 84 GB。這種記憶體牆是量化、梯度檢查點和參數高效微調等技術存在的主要原因。
Why It Matters
GPU 記憶體是 LLM 工作中最重要的單一硬體限制。它決定模型是否能被載入、訓練時的批次大小、推論時的上下文視窗長度,以及服務系統能處理的並發請求數量。每種優化技術本質上都是為了繞過 GPU 記憶體限制。
How It Works
訓練期間,GPU 記憶體在多個類別間分配:模型參數、梯度、Adam 優化器狀態和中間激活值。推論期間,記憶體使用由模型權重和 KV cache 主導。量化減少權重記憶體,而 KV cache 壓縮和分頁注意力優化快取記憶體佔用。
Example Use Case
團隊想在 2x RTX 4090 GPU(48 GB 總 VRAM)上微調 Llama 3 8B。完整微調需約 100 GB——不可能。使用 QLoRA 和梯度檢查點,記憶體佔用降至 18 GB,舒適地適合單一 GPU。
Key Takeaways
- GPU 記憶體(VRAM)是 LLM 訓練和推論的主要硬體瓶頸。
- 7B 模型推論約需 14 GB、完整 FP16 微調約需 84 GB。
- 量化、LoRA 和梯度檢查點等記憶體高效技術克服 VRAM 限制。
- 記憶體頻寬與容量同樣重要——LLM 推論通常受頻寬限制。
- 圍繞 VRAM 限制的硬體規劃對高性價比 LLM 部署至關重要。
How Ertas Helps
Ertas Studio 自動估算每個訓練配置的 GPU 記憶體需求並推薦優化設定,使微調在消費級和中階硬體上可用。
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.