使用 QLoRA 微調 Llama 3.3 和 Qwen 2.5：基準測試比較

Llama 3.3 8B 和 Qwen 2.5 7B 在 2026 年初已成為生產微調的兩個主導基礎模型。兩者都有寬鬆的授權、被微調生態系統良好支援，且小到足以在單個消費級 GPU 上訓練。但你實際上應該使用哪個？

答案取決於你的任務、你的資料和你的部署限制。本文在三個常見的微調任務上提供受控基準測試比較，使用相同的訓練配置，給你資料而不是觀點。

為何選擇這兩個模型

10B 參數以下的類別是生產微調的最佳點。這些模型夠大，足以捕獲複雜的特定任務模式；夠小，足以在單個 24GB GPU 上微調；速度足夠快，在生產中可以以低延遲服務。

Llama 3.3 8B 是 Meta 在 Llama 系列中的最新迭代。它受益於龐大的預訓練語料庫、具有 128K 詞彙的強大分詞器和強大的英語語言表現。Llama 生態系統是開源 AI 中最成熟的，具有廣泛的工具支援。

Qwen 2.5 7B 是阿里巴巴的旗艦小型模型。它在高度多語言語料庫上預訓練，CJK 語言和程式碼的代表性很強。它使用 152K 詞彙分詞器，在社群基準測試中的結構化任務上表現特別強。

兩個模型都支援相同的微調技術，可以匯出到相同的推論格式。它們之間的選擇純粹是關於任務級別表現。

測試設置

為確保公平比較，我們控制了除基礎模型之外的每個變量。

訓練配置：

方法：QLoRA（4 位元量化，LoRA rank 16，alpha 32）
學習率：2e-4，餘弦調度
Batch size：4（梯度累積至有效批次大小 16）
Epochs：3
硬體：單個 NVIDIA RTX 4090（24GB VRAM）

資料集：

分類：5,000 個已標記的客戶支援票（12 個類別）
實體擷取：3,000 個已標記的業務文件（公司名稱、日期、金額、產品引用）
文字生成：2,000 個技術文件的指令-回應對

每個資料集按 80/10/10 分割為訓練/驗證/測試集。訓練完成後在保留的測試集上進行評估。

結果

分類（客戶支援票）

指標	Llama 3.3 8B	Qwen 2.5 7B
準確率	94.2%	93.8%
宏觀 F1	0.921	0.917
加權 F1	0.941	0.937

兩個模型在分類上表現相當。Llama 有輕微優勢，可能是由於其更強的英語語言預訓練。差異在統計上不顯著——任何一個模型都是分類任務的出色選擇。

實體擷取（業務文件）

指標	Llama 3.3 8B	Qwen 2.5 7B
實體級別 F1	0.887	0.912
完全匹配	81.3%	85.7%
部分匹配	91.2%	93.1%

Qwen 在實體擷取上顯示出有意義的優勢。它的分詞器更一致地處理混合格式文字——各種格式的日期、貨幣符號、字母數字產品代碼——比 Llama 的更好。完全匹配準確率 2.5 個百分點的差異在生產中很重要，部分擷取失敗會級聯到下游錯誤。

文字生成（技術文件）

指標	Llama 3.3 8B	Qwen 2.5 7B
ROUGE-L	0.673	0.651
BERTScore F1	0.894	0.882
人工偏好（盲測）	62%	38%

Llama 產生了明顯更好的英語文章。它的輸出更流暢、結構更好、語氣更一致。人工評估者以接近 2:1 的比例偏好 Llama 輸出。對英語語言生成任務，Llama 3.3 是更強的基礎。

VRAM 使用比較

記憶體效率對生產部署很重要，尤其是在受限硬體上。

階段	Llama 3.3 8B	Qwen 2.5 7B
訓練（QLoRA）	14.2 GB	12.8 GB
訓練峰值	18.1 GB	16.3 GB
推論（Q4_K_M GGUF）	5.1 GB	4.6 GB
推論（Q8_0 GGUF）	8.5 GB	7.4 GB

Qwen 一貫地更省記憶體，反映其較小的參數量（7B vs 8B）。差異不大但在記憶體預算緊張的裝置上很重要——例如 16GB MacBook，舒適地運行 Qwen 的 Q8_0 量化，而 Llama 的 Q8_0 留給作業系統和其他應用程式的空間更少。

兩個模型在 QLoRA 訓練的 24GB GPU 中都很舒適。兩者都不需要多 GPU 設置或卸載策略。

訓練速度比較

指標	Llama 3.3 8B	Qwen 2.5 7B
Tokens/秒（訓練）	1,840	2,120
每 epoch 時間（5K 樣本）	42 分鐘	36 分鐘
總訓練時間（3 個 epoch）	2 小時 06 分	1 小時 48 分

Qwen 在相同硬體上比 Llama 快約 15%，再次反映參數量差異。在三個 epoch 中，你節省了大約 18 分鐘——對單次運行不是很大，但在多個實驗迭代時很有意義。

GGUF 推論速度比較

生產推論速度使用 llama.cpp 在相同 RTX 4090 上的 Q4_K_M 量化進行測量。

指標	Llama 3.3 8B	Qwen 2.5 7B
提示處理（tok/s）	3,240	3,680
生成（tok/s）	98.2	112.5
首個 token 時間	28ms	24ms

Qwen 在所有方面的推論速度都更快，在生成速度上有特別顯著的優勢。以每秒 112.5 個 token，Qwen 向最終用戶提供明顯更快的回應。

關鍵發現

Qwen 2.5 7B 是更好的選擇，適用於： 實體擷取、結構化輸出任務、多語言應用、記憶體受限的部署，以及延遲敏感的生產環境。它訓練更快、運行更快、使用更少記憶體。

Llama 3.3 8B 是更好的選擇，適用於： 英語語言文字生成、創意或對話任務，以及文章品質是主要指標的應用。它產生更流暢、更自然的英語輸出。

兩者都是出色選擇，適用於： 分類、情感分析，以及其他品質差異在雜訊範圍內的任務。

如果你正在開始一個新的微調項目，不確定選哪個，除非你的主要任務是英語文字生成，否則預設選擇 Qwen 2.5 7B。記憶體和速度優勢在生產中會複合，擷取表現差距是有意義的。

如何選擇：決策框架

問自己三個問題：

你的主要任務是英語文字生成嗎？ 如果是，從 Llama 開始。
你的部署記憶體受限嗎？ 如果是，從 Qwen 開始。
你的任務涉及結構化擷取或多語言資料嗎？ 如果是，從 Qwen 開始。

如果這些都不強烈適用，對兩者進行快速實驗。在任何一個模型上進行單次 QLoRA 運行的訓練成本很低——在消費級硬體上不到兩小時。讓你的具體資料和任務決定。

使用 Ertas 微調兩者

Ertas Studio 支援 Llama 3.3 和 Qwen 2.5 作為微調的基礎模型。你可以用相同的配置運行並行實驗，並在評估儀表板中直接比較結果——正是我們在本文中進行的受控比較，無需手動設置。

準備好在你的資料上進行基準測試了嗎？ 加入 Ertas 等待名單並開始實驗。

使用 QLoRA 微調 Llama 3.3 和 Qwen 2.5：基準測試比較

為何選擇這兩個模型

測試設置

結果

分類（客戶支援票）

實體擷取（業務文件）

文字生成（技術文件）

VRAM 使用比較

訓練速度比較

GGUF 推論速度比較

關鍵發現

如何選擇：決策框架

使用 Ertas 微調兩者

延伸閱讀

Ship AI that runs on your users' devices.

Keep reading

使用 LoRA 進行模型蒸餾：從前沿模型輸出訓練更小的模型

Ertas Studio vs. Unsloth vs. Axolotl：微調工具比較（2026）

微調用合成資料生成：真正有效的技術