
使用 QLoRA 微调 Llama 3.3 和 Qwen 2.5:基准对比
Llama 3.3 8B 和 Qwen 2.5 7B 使用 QLoRA 在常见任务(分类、提取、生成)上的对比测试——包含基准测试、VRAM 使用情况和实用建议。
Llama 3.3 8B 和 Qwen 2.5 7B 已成为 2026 年初生产微调的两个主流基础模型。两者都采用宽松许可证,得到微调生态系统的良好支持,且小到可以在单个消费级 GPU 上训练。但您到底应该使用哪一个?
答案取决于您的任务、数据和部署约束。本文提供了三个常见微调任务的受控基准对比,使用相同训练配置,为您提供数据而非观点。
为什么选择这两个模型
100 亿参数以下的参数级别是生产微调的最佳点。这些模型大到足以捕获复杂的任务特定模式,小到可以在单个 24GB GPU 上微调,且快到可以在生产中以低延迟提供服务。
Llama 3.3 8B 是 Meta 在 Llama 系列中的最新迭代。它受益于海量预训练语料库、128K 词汇量的强大分词器以及出色的英语性能。Llama 生态系统是开源 AI 中最成熟的,拥有广泛的工具支持。
Qwen 2.5 7B 是阿里巴巴的旗舰小型模型。它在高度多语言的语料库上进行预训练,对 CJK 语言和代码有强大的支持。它使用 152K 词汇量的分词器,在社区基准测试中对结构化任务表现尤为出色。
两个模型支持相同的微调技术,可导出为相同的推理格式。选择纯粹取决于任务级别的性能。
测试设置
为确保公平对比,我们控制了除基础模型之外的所有变量。
训练配置:
- 方法:QLoRA(4-bit 量化,LoRA rank 16,alpha 32)
- 学习率:2e-4,余弦调度
- Batch size:4(梯度累积至有效 batch size 16)
- Epochs:3
- 硬件:单张 NVIDIA RTX 4090(24GB VRAM)
数据集:
- 分类:5,000 个标注的客户支持工单(12 个类别)
- 实体提取:3,000 个标注的商业文档(公司名称、日期、金额、产品引用)
- 文本生成:2,000 个技术文档的指令-响应对
每个数据集按 80/10/10 拆分为训练/验证/测试集。评估在训练完成后的保留测试集上进行。
结果
分类(客户支持工单)
| 指标 | Llama 3.3 8B | Qwen 2.5 7B |
|---|---|---|
| 准确率 | 94.2% | 93.8% |
| 宏观 F1 | 0.921 | 0.917 |
| 加权 F1 | 0.941 | 0.937 |
两个模型在分类上表现相当。Llama 有微弱优势,可能得益于更强的英语预训练。差异在统计上不显著——两个模型都是分类任务的优秀选择。
实体提取(商业文档)
| 指标 | Llama 3.3 8B | Qwen 2.5 7B |
|---|---|---|
| 实体级 F1 | 0.887 | 0.912 |
| 精确匹配 | 81.3% | 85.7% |
| 部分匹配 | 91.2% | 93.1% |
Qwen 在实体提取上表现出显著优势。其分词器处理混合格式文本——各种格式的日期、货币符号、字母数字产品代码——比 Llama 更加一致。精确匹配准确率 2.5 个百分点的差异在生产中意义重大,部分提取失败会级联导致下游错误。
文本生成(技术文档)
| 指标 | Llama 3.3 8B | Qwen 2.5 7B |
|---|---|---|
| ROUGE-L | 0.673 | 0.651 |
| BERTScore F1 | 0.894 | 0.882 |
| 人工偏好(盲测) | 62% | 38% |
Llama 生成了明显更好的英语文本。其输出更流畅、结构更好、语调更一致。人工评估者以近二比一的比例偏好 Llama 的输出。对于英语生成任务,Llama 3.3 是更强的基础。
VRAM 使用对比
内存效率对生产部署很重要,特别是在受限硬件上。
| 阶段 | Llama 3.3 8B | Qwen 2.5 7B |
|---|---|---|
| 训练(QLoRA) | 14.2 GB | 12.8 GB |
| 训练峰值 | 18.1 GB | 16.3 GB |
| 推理(Q4_K_M GGUF) | 5.1 GB | 4.6 GB |
| 推理(Q8_0 GGUF) | 8.5 GB | 7.4 GB |
Qwen 始终更节省内存,反映了其较小的参数量(7B 对比 8B)。差异不大但在内存预算紧张的设备上很重要——例如 16GB MacBook 可以舒适运行 Qwen 的 Q8_0 量化,而 Llama 的 Q8_0 留给操作系统和其他应用的空间较少。
两个模型在 24GB GPU 上使用 QLoRA 训练都很舒适,都不需要多 GPU 设置或卸载策略。
训练速度对比
| 指标 | Llama 3.3 8B | Qwen 2.5 7B |
|---|---|---|
| Token/秒(训练) | 1,840 | 2,120 |
| 每 epoch 时间(5K 样本) | 42 分钟 | 36 分钟 |
| 总训练时间(3 epochs) | 2 小时 06 分 | 1 小时 48 分 |
Qwen 在相同硬件上训练速度大约快 15%,同样反映了参数量差异。三个 epoch 节省大约 18 分钟——单次运行影响不大,但在多次实验迭代时很有意义。
GGUF 推理速度对比
生产推理速度使用 llama.cpp 在相同的 RTX 4090 上以 Q4_K_M 量化测量。
| 指标 | Llama 3.3 8B | Qwen 2.5 7B |
|---|---|---|
| 提示处理(tok/s) | 3,240 | 3,680 |
| 生成(tok/s) | 98.2 | 112.5 |
| 首个 token 时间 | 28ms | 24ms |
Qwen 在推理各方面都更快,生成速度优势尤为显著。以 112.5 token/秒的速度,Qwen 能让终端用户明显感觉到更快的响应。
主要发现
**Qwen 2.5 7B 更适合:**实体提取、结构化输出任务、多语言应用、内存受限的部署以及对延迟敏感的生产环境。训练更快、运行更快、使用更少内存。
**Llama 3.3 8B 更适合:**英语文本生成、创意或对话任务,以及文本质量是首要指 标的应用。它产生更流畅、更自然的英语输出。
**两者都是优秀选择:**分类、情感分析以及其他质量差异在噪声范围内的任务。
如果您正在启动新的微调项目且不确定选哪个,默认选择 Qwen 2.5 7B,除非您的主要任务是英语文本生成。内存和速度优势在生产中会累积,提取性能差距也很有意义。
如何选择:决策框架
问自己三个问题:
- **您的主要任务是英语文本生成吗?**如果是,选 Llama。
- **您的部署内存受限吗?**如果是,选 Qwen。
- **您的任务涉及结构化提取或多语言数据吗?**如果是,选 Qwen。
如果这些都不强烈适用,可以两个都快速实验。在任一模型上进行单次 QLoRA 训练的成本很低——消费级硬件上不到两小时。让您的具体数据和任务来决定。
使用 Ertas 微调两者
Ertas Studio 支持 Llama 3.3 和 Qwen 2.5 作为微调基础模型。您可以使用相同配置运行并行实验,直接在评估仪表盘中比较结果——正是我们在本文中进行的受控对比,无需手动设置。
准备好在您的数据上进行模型基准测试了吗?加入 Ertas 候补名单,开始实验。
延伸阅读
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Model Distillation with LoRA: Training Smaller Models from Frontier Outputs
A technical guide to distilling GPT-4 and Claude outputs into compact, deployable models using LoRA fine-tuning — the practical path from API dependency to model ownership.

The 2026 Open Source AI Model Landscape
A comprehensive snapshot of the open-weight AI model ecosystem as of April 2026 — Chinese-lab dominance, MoE architectural defaults, the unified thinking-mode pattern, and what it all means for production deployments.

Which Open-Source Model Should You Fine-Tune in 2026?
A practical comparison of the top open-source models for fine-tuning in 2026 — Llama 3.3, Qwen 2.5, Gemma 3, and Mistral — covering performance, hardware requirements, licensing, and best use cases.