What is GPU显存（VRAM）?

图形处理单元上的专用高带宽内存，在训练和推理期间存储模型权重、激活值和梯度。

Definition

GPU显存，也称为VRAM（视频随机访问存储器），是物理位于图形处理单元上的高带宽内存。在机器学习中，GPU显存是决定哪些模型可以在给定硬件上训练或推理的主要瓶颈。训练期间，GPU显存必须同时容纳模型权重、优化器状态、梯度和中间激活值。推理期间，它存储模型权重和随上下文长度增长的KV缓存。

LLM的内存需求急剧增长。一个FP16精度的7B参数模型仅权重就需要约14 GB的VRAM。使用Adam优化器训练时，内存需求膨胀到约84 GB（权重+梯度+两个优化器状态+激活值），远超消费级RTX 4090的24 GB甚至A6000的48 GB。这个内存墙是量化、梯度检查点和参数高效微调等技术存在的根本原因。

与LLM工作相关的现代GPU架构包括NVIDIA的A100（40或80 GB HBM2e）、H100（80 GB HBM3）以及RTX 4090（24 GB GDDR6X）等消费级选项。内存带宽——数据从VRAM读写的速度——同样重要，因为LLM推理通常是内存带宽受限而非计算受限的。H100的3.35 TB/s带宽是其在LLM服务中占主导地位的主要原因。

Why It Matters

GPU显存是LLM工作中最重要的单一硬件约束。它决定了模型能否被加载、训练时能使用多大的批量大小、推理时能服务多长的上下文窗口，以及服务系统能处理多少并发请求。每一种其他优化技术——量化、LoRA、梯度累积、KV缓存压缩——从根本上说都是为了绕过GPU显存限制而存在的。

对于预算有限的团队来说，理解GPU显存需求对硬件规划至关重要。在7B和13B模型之间、在LoRA和全量微调之间、在FP16和4位量化之间做选择，都归结为有多少VRAM可用以及如何高效利用。做出错误选择意味着要么完全无法加载模型，要么浪费昂贵的GPU容量。

How It Works

训练期间，GPU显存在几个类别之间分配。模型参数消耗的内存与参数数量乘以精度成正比（例如，7B参数×FP16的2字节等于14 GB）。梯度需要与参数相同的内存。Adam优化器维护参数的两个额外副本（一阶和二阶矩估计），大约使参数内存增加三倍。中间激活值——每层保存的用于反向传播的输出——根据批量大小和序列长度消耗可变的内存。

推理期间，内存使用由模型权重和KV缓存主导。KV缓存存储为上下文中每个token计算的键和值张量，它随上下文长度和批量大小线性增长。对于长上下文应用（32K+ token），KV缓存可能超过模型权重内存。量化等技术减少权重内存，而KV缓存压缩和分页注意力（vLLM使用）优化缓存内存占用。

Example Use Case

一个团队想在拥有2块RTX 4090 GPU（总VRAM 48 GB）的服务器上微调Llama 3 8B。全量微调需要约100 GB的VRAM——在他们的硬件上不可能。通过使用QLoRA（4位量化权重+LoRA适配器）和梯度检查点，他们将内存占用减少到18 GB，轻松放入单块GPU，并为批量大小4和2048 token序列留出了空间。