
使用 QLoRA 微調 Llama 3.3 和 Qwen 2.5:基準測試比較
在常見任務——分類、擷取、生成——上使用 QLoRA 微調 Llama 3.3 8B 和 Qwen 2.5 7B 的頭對頭比較,包含基準測試、VRAM 使用和實用建議。
Llama 3.3 8B 和 Qwen 2.5 7B 在 2026 年初已成為生產微調的兩個主導基礎模型。兩者都有寬鬆的授權、被微調生態系統良好支援,且小到足以在單個消費級 GPU 上訓練。但你實際上應該使用哪個?
答案取決於你的任務、你的資料和你的部署限制。本文在三個常見的微調任務上提供受控基準測試比較,使用相同的訓練配置,給你資料而不是觀點。
為何選擇這兩個模型
10B 參數以下的類別是生產微調的最佳點。這些模型夠大,足以捕獲複雜的特定任務模式;夠小,足以在單個 24GB GPU 上微調;速度足夠快,在生產中可以以低延遲服務。
Llama 3.3 8B 是 Meta 在 Llama 系列中的最新迭代。它受益於龐大的預訓練語料庫、具有 128K 詞彙的強大分詞器和強大的英語語言表現。Llama 生態系統是開源 AI 中最成熟的,具有廣泛的工具支援。
Qwen 2.5 7B 是阿里巴巴的旗艦小型模型。它在高度多語言語料庫上預訓練,CJK 語言和程式碼的代表性很強。它使用 152K 詞彙分詞器,在社群基準測試中的結構化任務上表現特別強。
兩個模型都支援相同的微調技術,可以匯出到相同的推論格式。它們之間的選擇純粹是關於任務級別表現。
測試設置
為確保公平比較,我們控制了除基礎模型之外的每個變量。
訓練配置:
- 方法:QLoRA(4 位元量化,LoRA rank 16,alpha 32)
- 學習率:2e-4,餘弦調度
- Batch size:4(梯度累積至有效批次大小 16)
- Epochs:3
- 硬體:單個 NVIDIA RTX 4090(24GB VRAM)
資料集:
- 分類:5,000 個已標記的客戶支援票(12 個類別)
- 實體擷取:3,000 個已標記的業務文件(公司名稱、日期、金額、產品引用)
- 文字生成:2,000 個技術文件的指令-回應對
每個資料集按 80/10/10 分割為訓練/驗證/測試集。訓練完成後在保留的測試集上進行評估。
結果
分類(客戶支援票)
| 指標 | Llama 3.3 8B | Qwen 2.5 7B |
|---|---|---|
| 準確率 | 94.2% | 93.8% |
| 宏觀 F1 | 0.921 | 0.917 |
| 加權 F1 | 0.941 | 0.937 |
兩個模型在分類上表現相當。Llama 有輕微優勢,可能是由於其更強的英語語言預訓練。差異在統計上不顯著——任何一個模型都是分類任務的出色選擇。
實體擷取(業務文件)
| 指標 | Llama 3.3 8B | Qwen 2.5 7B |
|---|---|---|
| 實體級別 F1 | 0.887 | 0.912 |
| 完全匹配 | 81.3% | 85.7% |
| 部分匹配 | 91.2% | 93.1% |
Qwen 在實體擷取上顯示出有意義的優勢。它的分詞器更一致地處理混合格式文字——各種格式的日期、貨幣符號、字母數字產品代碼——比 Llama 的更好。完全匹配準確率 2.5 個百分點的差異在生產中很重要,部分擷取失敗會級聯到下游錯誤。
文字生成(技術文件)
| 指標 | Llama 3.3 8B | Qwen 2.5 7B |
|---|---|---|
| ROUGE-L | 0.673 | 0.651 |
| BERTScore F1 | 0.894 | 0.882 |
| 人工偏好(盲測) | 62% | 38% |
Llama 產生了明顯更好的英語文章。它的輸出更流暢、結構更好、語氣更一致。人工評估者以接近 2:1 的比例偏好 Llama 輸出。對英語語言生成任務,Llama 3.3 是更強的基礎。
VRAM 使用比較
記憶體效率對生產部署很重要,尤其是在受限硬體上。
| 階段 | Llama 3.3 8B | Qwen 2.5 7B |
|---|---|---|
| 訓練(QLoRA) | 14.2 GB | 12.8 GB |
| 訓練峰值 | 18.1 GB | 16.3 GB |
| 推論(Q4_K_M GGUF) | 5.1 GB | 4.6 GB |
| 推論(Q8_0 GGUF) | 8.5 GB | 7.4 GB |
Qwen 一貫地更省記憶體,反映其較小的參數量(7B vs 8B)。差異不大但在記憶體預算緊張的裝置上很重要——例如 16GB MacBook,舒適地運行 Qwen 的 Q8_0 量化,而 Llama 的 Q8_0 留給作業系統和其他應用程式的空間更少。
兩個模型在 QLoRA 訓練的 24GB GPU 中都很舒適。兩者都不需要多 GPU 設置或卸載策略。
訓練速度比較
| 指標 | Llama 3.3 8B | Qwen 2.5 7B |
|---|---|---|
| Tokens/秒(訓練) | 1,840 | 2,120 |
| 每 epoch 時間(5K 樣本) | 42 分鐘 | 36 分鐘 |
| 總訓練時間(3 個 epoch) | 2 小時 06 分 | 1 小時 48 分 |
Qwen 在相同硬體上比 Llama 快約 15%,再次反映參數量差異。在三個 epoch 中,你節省了大約 18 分鐘——對單次運行不是很大,但在多個實驗迭代時很有意義。
GGUF 推論速度比較
生產推論速度使用 llama.cpp 在相同 RTX 4090 上的 Q4_K_M 量化進行測量。
| 指標 | Llama 3.3 8B | Qwen 2.5 7B |
|---|---|---|
| 提示處理(tok/s) | 3,240 | 3,680 |
| 生成(tok/s) | 98.2 | 112.5 |
| 首個 token 時間 | 28ms | 24ms |
Qwen 在所有方面的推論速度都更快,在生成速度上有特別顯著的優勢。以每秒 112.5 個 token,Qwen 向最終用戶提供明顯更快的回應。
關鍵發現
Qwen 2.5 7B 是更好的選擇,適用於: 實體擷取、結構化輸出任務、多語言應用、記憶體受限的部署,以及延遲敏感的 生產環境。它訓練更快、運行更快、使用更少記憶體。
Llama 3.3 8B 是更好的選擇,適用於: 英語語言文字生成、創意或對話任務,以及文章品質是主要指標的應用。它產生更流暢、更自然的英語輸出。
兩者都是出色選擇,適用於: 分類、情感分析,以及其他品質差異在雜訊範圍內的任務。
如果你正在開始一個新的微調項目,不確定選哪個,除非你的主要任務是英語文字生成,否則預設選擇 Qwen 2.5 7B。記憶體和速度優勢在生產中會複合,擷取表現差距是有意義的。
如何選擇:決策框架
問自己三個問題:
- 你的主要任務是英語文字生成嗎? 如果是,從 Llama 開始。
- 你的部署記憶體受限嗎? 如果是,從 Qwen 開始。
- 你的任務涉及結構化擷取或多語言資料嗎? 如果是,從 Qwen 開始。
如果這些都不強烈適用,對兩者進行快速實驗。在任何一個模型上進行單次 QLoRA 運行的訓練成本 很低——在消費級硬體上不到兩小時。讓你的具體資料和任務決定。
使用 Ertas 微調兩者
Ertas Studio 支援 Llama 3.3 和 Qwen 2.5 作為微調的基礎模型。你可以用相同的配置運行並行實驗,並在評估儀表板中直接比較結果——正是我們在本文中進行的受控比較,無需手動設置。
準備好在你的資料上進行基準測試了嗎? 加入 Ertas 等待名單 並開始實驗。
延伸閱讀
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Model Distillation with LoRA: Training Smaller Models from Frontier Outputs
A technical guide to distilling GPT-4 and Claude outputs into compact, deployable models using LoRA fine-tuning — the practical path from API dependency to model ownership.

Ertas Studio vs. Unsloth vs. Axolotl: Fine-Tuning Tools Compared (2026)
A practical comparison of three popular fine-tuning tools — Ertas Studio, Unsloth, and Axolotl — covering ease of use, performance, GPU requirements, and production deployment workflows.

Synthetic Data Generation for Fine-Tuning: Techniques That Work
Practical techniques for generating high-quality synthetic training data using frontier models — covering prompt engineering, data augmentation, and quality filtering for fine-tuning datasets.