What is GPU显存(VRAM)?
图形处理单元上的专用高带宽内存,在训练和推理期间存储模型权重、激活值和梯度。
Definition
GPU显存,也称为VRAM(视频随机访问存储器),是物理位于图形处理单元上的高带宽内存。在机器学习中,GPU显存是决定哪些模型可以在给定硬件上训练或推理的主要瓶颈。训练期间,GPU显存必须同时容纳模型权重、优化器状态、梯度和中间激活值。推理期间,它存储模型权重和随上下文长度增长的KV缓存。
LLM的内存需求急剧增长。一个FP16精度的7B参数模型仅权重就需要约14 GB的VRAM。使用Adam优化器训练时,内存需求膨胀到约84 GB(权重+梯度+两个优化器状态+激活值),远超消费级RTX 4090的24 GB甚至A6000的48 GB。这个内存墙是量化、梯度检查点和参数高效微调等技术存在的根本原因。
与LLM工作相关的现代GPU架构包括NVIDIA的A100(40或80 GB HBM2e)、H100(80 GB HBM3)以及RTX 4090(24 GB GDDR6X)等消费级选项。内存带宽——数据从VRAM读写的速度——同样重要, 因为LLM推理通常是内存带宽受限而非计算受限的。H100的3.35 TB/s带宽是其在LLM服务中占主导地位的主要原因。
Why It Matters
GPU显存是LLM工作中最重要的单一硬件约束。它决定了模型能否被加载、训练时能使用多大的批量大小、推理时能服务多长的上下文窗口,以及服务系统能处理多少并发请求。每一种其他优化技术——量化、LoRA、梯度累积、KV缓存压缩——从根本上说都是为了绕过GPU显存限制而存在的。
对于预算有限的团队来说,理解GPU显存需求对硬件规划至关重要。在7B和13B模型之间、在LoRA和全量微调之间、在FP16和4位量化之间做选择,都归结为有多少VRAM可用以及如何高效利用。做出错误选择意味着要么完全无法加载模型,要么浪费昂贵的GPU容量。
How It Works
训练期间,GPU显存在几个类别之间分配。模型参数消耗的内存与参数数量乘以精度成正比(例如,7B参数×FP16的2字节等于14 GB)。梯度需要与参数相同的内存。Adam优化器维护参数的两个额外副本(一阶和二阶矩估计),大约使参数内存增加三倍。中间激活值——每层保存的用于反向传播的输出——根据批量大小和序列长度消耗可变的内存。
推理期间,内存使用由模型权重和KV缓存主导。KV缓存存储为上下文中每个token计算的键和值张量,它随上下文长度和批量大小线性增长。对于长上下文应用(32K+ token),KV缓存可能超过模型权重内存。量化等技 术减少权重内存,而KV缓存压缩和分页注意力(vLLM使用)优化缓存内存占用。
Example Use Case
一个团队想在拥有2块RTX 4090 GPU(总VRAM 48 GB)的服务器上微调Llama 3 8B。全量微调需要约100 GB的VRAM——在他们的硬件上不可能。通过使用QLoRA(4位量化权重+LoRA适配器)和梯度检查点,他们将内存占用减少到18 GB,轻松放入单块GPU,并为批量大小4和2048 token序列留出了空间。
Key Takeaways
- GPU显存(VRAM)是LLM训练和推理的主要硬件瓶颈。
- 一个7B模型在FP16下推理需要约14 GB,全量微调需要约84 GB。
- 量化、LoRA和梯度检查点等内存高效技术用于克服VRAM限制。
- 内存带宽与容量同等重要——LLM推理通常受带宽限制。
- 围绕VRAM约束的硬件规划对于高性价比的LLM部署至关重要。
How Ertas Helps
Ertas Studio自动估算每种训练配置的GPU显存需求,并推荐QLoRA和梯度累积等优化设置以适应可用VRAM,使得消费级和中端硬件上的微调变得可行。
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.