Back to blog
    使用 QLoRA 微調 Llama 3.3 和 Qwen 2.5:基準測試比較
    ml-engineeringbenchmarkllamaqwenqlorasegment:ml-engineer

    使用 QLoRA 微調 Llama 3.3 和 Qwen 2.5:基準測試比較

    在常見任務——分類、擷取、生成——上使用 QLoRA 微調 Llama 3.3 8B 和 Qwen 2.5 7B 的頭對頭比較,包含基準測試、VRAM 使用和實用建議。

    EErtas Team·

    Llama 3.3 8B 和 Qwen 2.5 7B 在 2026 年初已成為生產微調的兩個主導基礎模型。兩者都有寬鬆的授權、被微調生態系統良好支援,且小到足以在單個消費級 GPU 上訓練。但你實際上應該使用哪個?

    答案取決於你的任務、你的資料和你的部署限制。本文在三個常見的微調任務上提供受控基準測試比較,使用相同的訓練配置,給你資料而不是觀點。

    為何選擇這兩個模型

    10B 參數以下的類別是生產微調的最佳點。這些模型夠大,足以捕獲複雜的特定任務模式;夠小,足以在單個 24GB GPU 上微調;速度足夠快,在生產中可以以低延遲服務。

    Llama 3.3 8B 是 Meta 在 Llama 系列中的最新迭代。它受益於龐大的預訓練語料庫、具有 128K 詞彙的強大分詞器和強大的英語語言表現。Llama 生態系統是開源 AI 中最成熟的,具有廣泛的工具支援。

    Qwen 2.5 7B 是阿里巴巴的旗艦小型模型。它在高度多語言語料庫上預訓練,CJK 語言和程式碼的代表性很強。它使用 152K 詞彙分詞器,在社群基準測試中的結構化任務上表現特別強。

    兩個模型都支援相同的微調技術,可以匯出到相同的推論格式。它們之間的選擇純粹是關於任務級別表現。

    測試設置

    為確保公平比較,我們控制了除基礎模型之外的每個變量。

    訓練配置:

    • 方法:QLoRA(4 位元量化,LoRA rank 16,alpha 32)
    • 學習率:2e-4,餘弦調度
    • Batch size:4(梯度累積至有效批次大小 16)
    • Epochs:3
    • 硬體:單個 NVIDIA RTX 4090(24GB VRAM)

    資料集:

    • 分類:5,000 個已標記的客戶支援票(12 個類別)
    • 實體擷取:3,000 個已標記的業務文件(公司名稱、日期、金額、產品引用)
    • 文字生成:2,000 個技術文件的指令-回應對

    每個資料集按 80/10/10 分割為訓練/驗證/測試集。訓練完成後在保留的測試集上進行評估。

    結果

    分類(客戶支援票)

    指標Llama 3.3 8BQwen 2.5 7B
    準確率94.2%93.8%
    宏觀 F10.9210.917
    加權 F10.9410.937

    兩個模型在分類上表現相當。Llama 有輕微優勢,可能是由於其更強的英語語言預訓練。差異在統計上不顯著——任何一個模型都是分類任務的出色選擇。

    實體擷取(業務文件)

    指標Llama 3.3 8BQwen 2.5 7B
    實體級別 F10.8870.912
    完全匹配81.3%85.7%
    部分匹配91.2%93.1%

    Qwen 在實體擷取上顯示出有意義的優勢。它的分詞器更一致地處理混合格式文字——各種格式的日期、貨幣符號、字母數字產品代碼——比 Llama 的更好。完全匹配準確率 2.5 個百分點的差異在生產中很重要,部分擷取失敗會級聯到下游錯誤。

    文字生成(技術文件)

    指標Llama 3.3 8BQwen 2.5 7B
    ROUGE-L0.6730.651
    BERTScore F10.8940.882
    人工偏好(盲測)62%38%

    Llama 產生了明顯更好的英語文章。它的輸出更流暢、結構更好、語氣更一致。人工評估者以接近 2:1 的比例偏好 Llama 輸出。對英語語言生成任務,Llama 3.3 是更強的基礎。

    VRAM 使用比較

    記憶體效率對生產部署很重要,尤其是在受限硬體上。

    階段Llama 3.3 8BQwen 2.5 7B
    訓練(QLoRA)14.2 GB12.8 GB
    訓練峰值18.1 GB16.3 GB
    推論(Q4_K_M GGUF)5.1 GB4.6 GB
    推論(Q8_0 GGUF)8.5 GB7.4 GB

    Qwen 一貫地更省記憶體,反映其較小的參數量(7B vs 8B)。差異不大但在記憶體預算緊張的裝置上很重要——例如 16GB MacBook,舒適地運行 Qwen 的 Q8_0 量化,而 Llama 的 Q8_0 留給作業系統和其他應用程式的空間更少。

    兩個模型在 QLoRA 訓練的 24GB GPU 中都很舒適。兩者都不需要多 GPU 設置或卸載策略。

    訓練速度比較

    指標Llama 3.3 8BQwen 2.5 7B
    Tokens/秒(訓練)1,8402,120
    每 epoch 時間(5K 樣本)42 分鐘36 分鐘
    總訓練時間(3 個 epoch)2 小時 06 分1 小時 48 分

    Qwen 在相同硬體上比 Llama 快約 15%,再次反映參數量差異。在三個 epoch 中,你節省了大約 18 分鐘——對單次運行不是很大,但在多個實驗迭代時很有意義。

    GGUF 推論速度比較

    生產推論速度使用 llama.cpp 在相同 RTX 4090 上的 Q4_K_M 量化進行測量。

    指標Llama 3.3 8BQwen 2.5 7B
    提示處理(tok/s)3,2403,680
    生成(tok/s)98.2112.5
    首個 token 時間28ms24ms

    Qwen 在所有方面的推論速度都更快,在生成速度上有特別顯著的優勢。以每秒 112.5 個 token,Qwen 向最終用戶提供明顯更快的回應。

    關鍵發現

    Qwen 2.5 7B 是更好的選擇,適用於: 實體擷取、結構化輸出任務、多語言應用、記憶體受限的部署,以及延遲敏感的生產環境。它訓練更快、運行更快、使用更少記憶體。

    Llama 3.3 8B 是更好的選擇,適用於: 英語語言文字生成、創意或對話任務,以及文章品質是主要指標的應用。它產生更流暢、更自然的英語輸出。

    兩者都是出色選擇,適用於: 分類、情感分析,以及其他品質差異在雜訊範圍內的任務。

    如果你正在開始一個新的微調項目,不確定選哪個,除非你的主要任務是英語文字生成,否則預設選擇 Qwen 2.5 7B。記憶體和速度優勢在生產中會複合,擷取表現差距是有意義的。

    如何選擇:決策框架

    問自己三個問題:

    1. 你的主要任務是英語文字生成嗎? 如果是,從 Llama 開始。
    2. 你的部署記憶體受限嗎? 如果是,從 Qwen 開始。
    3. 你的任務涉及結構化擷取或多語言資料嗎? 如果是,從 Qwen 開始。

    如果這些都不強烈適用,對兩者進行快速實驗。在任何一個模型上進行單次 QLoRA 運行的訓練成本很低——在消費級硬體上不到兩小時。讓你的具體資料和任務決定。

    使用 Ertas 微調兩者

    Ertas Studio 支援 Llama 3.3 和 Qwen 2.5 作為微調的基礎模型。你可以用相同的配置運行並行實驗,並在評估儀表板中直接比較結果——正是我們在本文中進行的受控比較,無需手動設置。

    準備好在你的資料上進行基準測試了嗎? 加入 Ertas 等待名單 並開始實驗。

    延伸閱讀

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading