Back to blog
    使用 QLoRA 微调 Llama 3.3 和 Qwen 2.5:基准对比
    ml-engineeringbenchmarkllamaqwenqlorasegment:ml-engineer

    使用 QLoRA 微调 Llama 3.3 和 Qwen 2.5:基准对比

    Llama 3.3 8B 和 Qwen 2.5 7B 使用 QLoRA 在常见任务(分类、提取、生成)上的对比测试——包含基准测试、VRAM 使用情况和实用建议。

    EErtas Team·

    Llama 3.3 8B 和 Qwen 2.5 7B 已成为 2026 年初生产微调的两个主流基础模型。两者都采用宽松许可证,得到微调生态系统的良好支持,且小到可以在单个消费级 GPU 上训练。但您到底应该使用哪一个?

    答案取决于您的任务、数据和部署约束。本文提供了三个常见微调任务的受控基准对比,使用相同训练配置,为您提供数据而非观点。

    为什么选择这两个模型

    100 亿参数以下的参数级别是生产微调的最佳点。这些模型大到足以捕获复杂的任务特定模式,小到可以在单个 24GB GPU 上微调,且快到可以在生产中以低延迟提供服务。

    Llama 3.3 8B 是 Meta 在 Llama 系列中的最新迭代。它受益于海量预训练语料库、128K 词汇量的强大分词器以及出色的英语性能。Llama 生态系统是开源 AI 中最成熟的,拥有广泛的工具支持。

    Qwen 2.5 7B 是阿里巴巴的旗舰小型模型。它在高度多语言的语料库上进行预训练,对 CJK 语言和代码有强大的支持。它使用 152K 词汇量的分词器,在社区基准测试中对结构化任务表现尤为出色。

    两个模型支持相同的微调技术,可导出为相同的推理格式。选择纯粹取决于任务级别的性能。

    测试设置

    为确保公平对比,我们控制了除基础模型之外的所有变量。

    训练配置:

    • 方法:QLoRA(4-bit 量化,LoRA rank 16,alpha 32)
    • 学习率:2e-4,余弦调度
    • Batch size:4(梯度累积至有效 batch size 16)
    • Epochs:3
    • 硬件:单张 NVIDIA RTX 4090(24GB VRAM)

    数据集:

    • 分类:5,000 个标注的客户支持工单(12 个类别)
    • 实体提取:3,000 个标注的商业文档(公司名称、日期、金额、产品引用)
    • 文本生成:2,000 个技术文档的指令-响应对

    每个数据集按 80/10/10 拆分为训练/验证/测试集。评估在训练完成后的保留测试集上进行。

    结果

    分类(客户支持工单)

    指标Llama 3.3 8BQwen 2.5 7B
    准确率94.2%93.8%
    宏观 F10.9210.917
    加权 F10.9410.937

    两个模型在分类上表现相当。Llama 有微弱优势,可能得益于更强的英语预训练。差异在统计上不显著——两个模型都是分类任务的优秀选择。

    实体提取(商业文档)

    指标Llama 3.3 8BQwen 2.5 7B
    实体级 F10.8870.912
    精确匹配81.3%85.7%
    部分匹配91.2%93.1%

    Qwen 在实体提取上表现出显著优势。其分词器处理混合格式文本——各种格式的日期、货币符号、字母数字产品代码——比 Llama 更加一致。精确匹配准确率 2.5 个百分点的差异在生产中意义重大,部分提取失败会级联导致下游错误。

    文本生成(技术文档)

    指标Llama 3.3 8BQwen 2.5 7B
    ROUGE-L0.6730.651
    BERTScore F10.8940.882
    人工偏好(盲测)62%38%

    Llama 生成了明显更好的英语文本。其输出更流畅、结构更好、语调更一致。人工评估者以近二比一的比例偏好 Llama 的输出。对于英语生成任务,Llama 3.3 是更强的基础。

    VRAM 使用对比

    内存效率对生产部署很重要,特别是在受限硬件上。

    阶段Llama 3.3 8BQwen 2.5 7B
    训练(QLoRA)14.2 GB12.8 GB
    训练峰值18.1 GB16.3 GB
    推理(Q4_K_M GGUF)5.1 GB4.6 GB
    推理(Q8_0 GGUF)8.5 GB7.4 GB

    Qwen 始终更节省内存,反映了其较小的参数量(7B 对比 8B)。差异不大但在内存预算紧张的设备上很重要——例如 16GB MacBook 可以舒适运行 Qwen 的 Q8_0 量化,而 Llama 的 Q8_0 留给操作系统和其他应用的空间较少。

    两个模型在 24GB GPU 上使用 QLoRA 训练都很舒适,都不需要多 GPU 设置或卸载策略。

    训练速度对比

    指标Llama 3.3 8BQwen 2.5 7B
    Token/秒(训练)1,8402,120
    每 epoch 时间(5K 样本)42 分钟36 分钟
    总训练时间(3 epochs)2 小时 06 分1 小时 48 分

    Qwen 在相同硬件上训练速度大约快 15%,同样反映了参数量差异。三个 epoch 节省大约 18 分钟——单次运行影响不大,但在多次实验迭代时很有意义。

    GGUF 推理速度对比

    生产推理速度使用 llama.cpp 在相同的 RTX 4090 上以 Q4_K_M 量化测量。

    指标Llama 3.3 8BQwen 2.5 7B
    提示处理(tok/s)3,2403,680
    生成(tok/s)98.2112.5
    首个 token 时间28ms24ms

    Qwen 在推理各方面都更快,生成速度优势尤为显著。以 112.5 token/秒的速度,Qwen 能让终端用户明显感觉到更快的响应。

    主要发现

    **Qwen 2.5 7B 更适合:**实体提取、结构化输出任务、多语言应用、内存受限的部署以及对延迟敏感的生产环境。训练更快、运行更快、使用更少内存。

    **Llama 3.3 8B 更适合:**英语文本生成、创意或对话任务,以及文本质量是首要指标的应用。它产生更流畅、更自然的英语输出。

    **两者都是优秀选择:**分类、情感分析以及其他质量差异在噪声范围内的任务。

    如果您正在启动新的微调项目且不确定选哪个,默认选择 Qwen 2.5 7B,除非您的主要任务是英语文本生成。内存和速度优势在生产中会累积,提取性能差距也很有意义。

    如何选择:决策框架

    问自己三个问题:

    1. **您的主要任务是英语文本生成吗?**如果是,选 Llama。
    2. **您的部署内存受限吗?**如果是,选 Qwen。
    3. **您的任务涉及结构化提取或多语言数据吗?**如果是,选 Qwen。

    如果这些都不强烈适用,可以两个都快速实验。在任一模型上进行单次 QLoRA 训练的成本很低——消费级硬件上不到两小时。让您的具体数据和任务来决定。

    使用 Ertas 微调两者

    Ertas Studio 支持 Llama 3.3 和 Qwen 2.5 作为微调基础模型。您可以使用相同配置运行并行实验,直接在评估仪表盘中比较结果——正是我们在本文中进行的受控对比,无需手动设置。

    准备好在您的数据上进行模型基准测试了吗?加入 Ertas 候补名单,开始实验。

    延伸阅读

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading