QLoRA vs LoRA

2026 年 QLoRA 与 LoRA 的 LLM 微调对比。了解内存节省、性能权衡以及何时使用量化 vs 标准 LoRA 训练。

Overview

QLoRA 和 LoRA 是密切相关的技术——QLoRA 本质上是带有额外优化的 LoRA。标准 LoRA 以原始精度（通常 float16 或 bfloat16）冻结基础模型权重，训练小型低秩适配器矩阵。这已经比全量微调显著降低了内存。QLoRA 更进一步，使用 NormalFloat4 (NF4) 数据类型将冻结的基础模型权重量化到 4 位精度，同时保持 LoRA 适配器权重以全精度训练以确保稳定性。

实际影响是显著的。对于 7B 参数模型，标准 LoRA 可能需要 16-20GB GPU 内存（fp16 的基础模型加 LoRA 适配器加优化器状态）。QLoRA 将基础模型占用减少约 4 倍，总内存降至约 6-10GB——使在低至 8GB VRAM 的 GPU 上微调 7B 模型成为可能，或在 24GB 消费级 GPU 上微调 13B-33B 模型。

每个人都会问的问题是 QLoRA 是否为这些内存节省牺牲了质量。原始 QLoRA 论文证明 4 位量化训练在多个任务上达到与全 16 位微调相当的结果。实践中，大多数从业者发现 QLoRA 质量与标准 LoRA 非常接近，偶尔在对数值精度特别敏感的任务上有轻微下降。对于绝大多数应用，质量差异可以忽略，而内存节省是变革性的。

Feature Comparison

Feature	QLoRA	LoRA
GPU 内存（7B 模型）	6-10 GB	16-20 GB
GPU 内存（13B 模型）	12-16 GB	28-36 GB
基础模型精度	4 位 (NF4)	16 位 (fp16/bf16)
适配器精度	全精度	全精度
训练速度	略慢	更快
相比全量微调质量	约 95-99%	约 97-99%
消费级 GPU 兼容	8GB+ GPU	24GB+ GPU
工具支持	bitsandbytes、PEFT	所有主要框架
分页优化器	是（分页 AdamW）	标准
双重量化	支持	不适用

Strengths

QLoRA

大幅降低内存需求——在 8GB GPU 上微调 7B 模型，在 24GB GPU 上微调 13B 模型
使在消费级硬件上微调标准 LoRA 不可能的更大模型成为可能
分页优化器通过在需要时卸载到 CPU 内存防止训练中的内存溢出崩溃
双重量化通过量化量化常数本身进一步降低内存
经验证的质量——原始论文显示在标准基准上与全 16 位微调相当的结果
使 LLM 微调对没有企业 GPU 预算的个人和小团队变得可及

LoRA

略快的训练速度，因为前向和反向传递中没有量化/反量化开销
略高的质量上限，因为基础模型权重在训练期间保持全精度
更广泛的工具支持——每个主要训练框架原生支持标准 LoRA
更易调试，因为运动部件更少（无量化配置、无分页优化器）
更适合 GPU 内存不是瓶颈且最大速度更重要的场景
更可预测的行为——更少与量化相关的超参数需要潜在地错误配置

Which Should You Choose?

您有 8-16GB VRAM 的消费级 GPU 想微调 7B 模型QLoRA

QLoRA 使在低至 8GB VRAM 的 GPU 上微调 7B 模型成为可能。标准 LoRA 对同一模型至少需要 16-20GB。

您有 24GB+ GPU 正在微调 7B 模型且速度最重要LoRA

有足够 GPU 内存时，标准 LoRA 训练更快因为避免了量化开销。如果内存不是约束，LoRA 给您略好的速度和简单性。

您想在不租用企业 GPU 的情况下微调 13B 或更大模型QLoRA

QLoRA 使 24GB 消费级 GPU 上的 13B 微调和 48GB GPU 上的 33B 微调成为可能。标准 LoRA 无法在同等内存预算中容纳这些模型。

您需要绝对最佳质量且有企业 GPU 访问LoRA

标准 LoRA 保持基础模型权重的全精度，在精度敏感的任务上可提供小的质量优势。有足够 GPU 内存时，没有理由接受量化的权衡。

您刚开始接触微调并想要最可及的选项QLoRA

QLoRA 更低的内存需求意味着您可以在您可能已有的硬件上开始微调。对于大多数实际任务，质量权衡是最小的。

Verdict

QLoRA 是实际 LLM 微调中最具影响力的创新之一。通过将基础模型量化到 4 位精度同时以全精度训练 LoRA 适配器，它使在消费级硬件上的微调变得可及。质量权衡是最小的——研究和实践一致显示结果在标准 LoRA 的几个百分点内——而内存节省是变革性的。对于使用有限 GPU 资源工作的任何人，QLoRA 是明确的推荐。

当 GPU 内存不是约束时，标准 LoRA 仍然是更好的选择。它训练更快、工具支持更广泛，且避免了量化配置的复杂性。如果您有 40GB+ GPU 正在微调 7B 模型，标准 LoRA 给您略好的速度和简单性。但对于大多数使用消费级 GPU 或有限内存的云实例的从业者，QLoRA 打开了之前关闭的大门。

How Ertas Fits In

Ertas Studio 支持 LoRA 和 QLoRA 训练方法。平台根据选定的基础模型和可用计算资源自动推荐适当的方法。对于训练较大模型的用户，QLoRA 通常默认选择以确保训练适合云 GPU 分配。可视化界面抽象了量化配置，用户无需理解 NF4 数据类型或分页优化器即可受益于 QLoRA 的内存节省。

Related Resources

Comparison

Ertas vs Unsloth

Comparison

Ertas vs Axolotl

Comparison

LoRA vs Full Fine-Tuning

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →