使用 QLoRA 微调 Llama 3.3 和 Qwen 2.5：基准对比

Llama 3.3 8B 和 Qwen 2.5 7B 已成为 2026 年初生产微调的两个主流基础模型。两者都采用宽松许可证，得到微调生态系统的良好支持，且小到可以在单个消费级 GPU 上训练。但您到底应该使用哪一个？

答案取决于您的任务、数据和部署约束。本文提供了三个常见微调任务的受控基准对比，使用相同训练配置，为您提供数据而非观点。

为什么选择这两个模型

100 亿参数以下的参数级别是生产微调的最佳点。这些模型大到足以捕获复杂的任务特定模式，小到可以在单个 24GB GPU 上微调，且快到可以在生产中以低延迟提供服务。

Llama 3.3 8B 是 Meta 在 Llama 系列中的最新迭代。它受益于海量预训练语料库、128K 词汇量的强大分词器以及出色的英语性能。Llama 生态系统是开源 AI 中最成熟的，拥有广泛的工具支持。

Qwen 2.5 7B 是阿里巴巴的旗舰小型模型。它在高度多语言的语料库上进行预训练，对 CJK 语言和代码有强大的支持。它使用 152K 词汇量的分词器，在社区基准测试中对结构化任务表现尤为出色。

两个模型支持相同的微调技术，可导出为相同的推理格式。选择纯粹取决于任务级别的性能。

测试设置

为确保公平对比，我们控制了除基础模型之外的所有变量。

训练配置：

方法：QLoRA（4-bit 量化，LoRA rank 16，alpha 32）
学习率：2e-4，余弦调度
Batch size：4（梯度累积至有效 batch size 16）
Epochs：3
硬件：单张 NVIDIA RTX 4090（24GB VRAM）

数据集：

分类：5,000 个标注的客户支持工单（12 个类别）
实体提取：3,000 个标注的商业文档（公司名称、日期、金额、产品引用）
文本生成：2,000 个技术文档的指令-响应对

每个数据集按 80/10/10 拆分为训练/验证/测试集。评估在训练完成后的保留测试集上进行。

结果

分类（客户支持工单）

指标	Llama 3.3 8B	Qwen 2.5 7B
准确率	94.2%	93.8%
宏观 F1	0.921	0.917
加权 F1	0.941	0.937

两个模型在分类上表现相当。Llama 有微弱优势，可能得益于更强的英语预训练。差异在统计上不显著——两个模型都是分类任务的优秀选择。

实体提取（商业文档）

指标	Llama 3.3 8B	Qwen 2.5 7B
实体级 F1	0.887	0.912
精确匹配	81.3%	85.7%
部分匹配	91.2%	93.1%

Qwen 在实体提取上表现出显著优势。其分词器处理混合格式文本——各种格式的日期、货币符号、字母数字产品代码——比 Llama 更加一致。精确匹配准确率 2.5 个百分点的差异在生产中意义重大，部分提取失败会级联导致下游错误。

文本生成（技术文档）

指标	Llama 3.3 8B	Qwen 2.5 7B
ROUGE-L	0.673	0.651
BERTScore F1	0.894	0.882
人工偏好（盲测）	62%	38%

Llama 生成了明显更好的英语文本。其输出更流畅、结构更好、语调更一致。人工评估者以近二比一的比例偏好 Llama 的输出。对于英语生成任务，Llama 3.3 是更强的基础。

VRAM 使用对比

内存效率对生产部署很重要，特别是在受限硬件上。

阶段	Llama 3.3 8B	Qwen 2.5 7B
训练（QLoRA）	14.2 GB	12.8 GB
训练峰值	18.1 GB	16.3 GB
推理（Q4_K_M GGUF）	5.1 GB	4.6 GB
推理（Q8_0 GGUF）	8.5 GB	7.4 GB

Qwen 始终更节省内存，反映了其较小的参数量（7B 对比 8B）。差异不大但在内存预算紧张的设备上很重要——例如 16GB MacBook 可以舒适运行 Qwen 的 Q8_0 量化，而 Llama 的 Q8_0 留给操作系统和其他应用的空间较少。

两个模型在 24GB GPU 上使用 QLoRA 训练都很舒适，都不需要多 GPU 设置或卸载策略。

训练速度对比

指标	Llama 3.3 8B	Qwen 2.5 7B
Token/秒（训练）	1,840	2,120
每 epoch 时间（5K 样本）	42 分钟	36 分钟
总训练时间（3 epochs）	2 小时 06 分	1 小时 48 分

Qwen 在相同硬件上训练速度大约快 15%，同样反映了参数量差异。三个 epoch 节省大约 18 分钟——单次运行影响不大，但在多次实验迭代时很有意义。

GGUF 推理速度对比

生产推理速度使用 llama.cpp 在相同的 RTX 4090 上以 Q4_K_M 量化测量。

指标	Llama 3.3 8B	Qwen 2.5 7B
提示处理（tok/s）	3,240	3,680
生成（tok/s）	98.2	112.5
首个 token 时间	28ms	24ms

Qwen 在推理各方面都更快，生成速度优势尤为显著。以 112.5 token/秒的速度，Qwen 能让终端用户明显感觉到更快的响应。

主要发现

**Qwen 2.5 7B 更适合：**实体提取、结构化输出任务、多语言应用、内存受限的部署以及对延迟敏感的生产环境。训练更快、运行更快、使用更少内存。

**Llama 3.3 8B 更适合：**英语文本生成、创意或对话任务，以及文本质量是首要指标的应用。它产生更流畅、更自然的英语输出。

**两者都是优秀选择：**分类、情感分析以及其他质量差异在噪声范围内的任务。

如果您正在启动新的微调项目且不确定选哪个，默认选择 Qwen 2.5 7B，除非您的主要任务是英语文本生成。内存和速度优势在生产中会累积，提取性能差距也很有意义。

如何选择：决策框架

问自己三个问题：

**您的主要任务是英语文本生成吗？**如果是，选 Llama。
**您的部署内存受限吗？**如果是，选 Qwen。
**您的任务涉及结构化提取或多语言数据吗？**如果是，选 Qwen。

如果这些都不强烈适用，可以两个都快速实验。在任一模型上进行单次 QLoRA 训练的成本很低——消费级硬件上不到两小时。让您的具体数据和任务来决定。

使用 Ertas 微调两者

Ertas Studio 支持 Llama 3.3 和 Qwen 2.5 作为微调基础模型。您可以使用相同配置运行并行实验，直接在评估仪表盘中比较结果——正是我们在本文中进行的受控对比，无需手动设置。

使用 QLoRA 微调 Llama 3.3 和 Qwen 2.5：基准对比

为什么选择这两个模型

测试设置

结果

分类（客户支持工单）

实体提取（商业文档）

文本生成（技术文档）

VRAM 使用对比

训练速度对比

GGUF 推理速度对比

主要发现

如何选择：决策框架

使用 Ertas 微调两者

延伸阅读

Ship AI that runs on your users' devices.

Keep reading

Ertas Studio vs. Unsloth vs. Axolotl：微调工具对比（2026）

微调用合成数据生成：有效的技术

从 Notebook 到生产：弥合微调部署鸿沟