Fine-Tune Qwen 3 with Ertas

阿里巴巴的最新一代模型家族，同時提供密集和混合專家架構，規格從 0.6B 到 235B，具備內建的混合思考模式以實現自適應推理深度。

0.6B1.7B4B8B14B32B30B-A3B235B-A22BAlibaba

Overview

Qwen 3 由阿里巴巴於 2025 年初發布，代表了 Qwen 家族的重大架構演進。產品線現包含密集模型（0.6B 到 32B）和混合專家模型（30B-A3B 和 235B-A22B），為不同的部署場景提供前所未有的靈活性。MoE 變體提供了大幅更佳的品質與運算比——30B-A3B 模型每個 token 僅激活 3B 參數同時存取 30B 模型的知識，而旗艦 235B-A22B 在其 235B 總參數中激活 22B。

Qwen 3 的標題特色是混合思考模式，允許模型根據查詢複雜度動態選擇快速直接回應或較慢的思維鏈推理。這種自適應行為意味著模型僅在任務真正需要更深推理時才使用額外運算，同時最佳化回應品質和推論成本。

Qwen 3 使用超過 36 兆個 token 進行訓練，是 Qwen 2.5 資料集規模的兩倍，覆蓋擴展至 119 種語言。訓練過程包含四階段管線：大規模預訓練、長上下文擴展、以推理為重點的後訓練，以及使用獎勵模型和基於規則信號的強化學習。

所有 Qwen 3 模型以 Apache 2.0 授權發布。MoE 變體迅速成為生產部署的熱門選擇，提供了執行更大密集模型的有力替代方案。

Key Features

混合思考模式是 Qwen 3 最創新的特色。啟用後，模型在複雜問題上會在產生最終答案之前內部生成推理軌跡，類似於 DeepSeek-R1 等專用推理模型。然而，與純推理模型不同，Qwen 3 在查詢簡單時也可以直接回應而不進行思考。使用者可以透過思考預算參數控制此行為，設定最大推理 token 數或完全禁用思考以滿足對延遲敏感的應用。

30B-A3B 和 235B-A22B 變體中的 MoE 架構使用 top-2 專家路由跨細粒度專家網路。30B-A3B 模型包含 128 個專家，每個 token 路由到 2 個，實現了極高效的推論——它以大約 3B 密集模型的速度執行，同時提供接近 14B-32B 範圍模型的品質。235B-A22B 旗艦同樣以大約 22B 級的推論成本執行，同時與最佳開放權重密集模型競爭。

多語言支援已大幅擴展，訓練資料中代表了 119 種語言。這包括對其他模型家族中資源有限的語言的全面支援，如泰語、越南語、印尼語、馬來語、菲律賓語、斯瓦希里語和眾多其他語言。

Fine-Tuning with Ertas

Qwen 3 的多樣化產品線使 Ertas Studio 微調在每個規模上都易於取得。從 0.6B 到 8B 的密集模型都可以在配備 6-16GB VRAM 的消費級 GPU 上使用 QLoRA 進行微調，非常適合快速原型設計和實驗。MoE 變體 30B-A3B 對微調特別有趣——儘管總參數量為 30B，但訓練期間的活躍參數佔用僅為 3B，使 QLoRA 微調在約 18-24GB VRAM 下成為可能。

混合思考模式創造了獨特的微調機會。在 Ertas Studio 中，您可以使用包含明確推理軌跡的資料集進行訓練，教會模型何時以及如何將延伸思考應用於特定領域的問題。這對醫療診斷、法律分析或科學研究等技術領域特別強大，其中展示推理步驟可以提高準確性和使用者信任。

訓練後，Ertas Studio 匯出為完全支援 MoE 量化的 GGUF 格式。Ollama 和 llama.cpp 都原生處理 Qwen 3 MoE 推論，使部署簡單直接。30B-A3B 變體合併 QLoRA 適配器並量化為 Q4_K_M 後產生約 17GB 的模型，以 3B 級速度執行——出色的品質與資源比。

Use Cases

Qwen 3 是需要廣泛語言覆蓋的多語言應用的首選。119 種語言的支援使其適合全球平台、國際客戶支援系統和跨語言內容處理。MoE 變體對 API 服務特別具成本效益，因為它們以小模型速度處理 token 同時維持大模型品質。

混合思考模式使 Qwen 3 非常適合推理深度因查詢而異的應用：某些問題需要逐步解釋的教育平台、某些問題需要更深入分析的技術支援系統，以及某些查詢受益於延伸深思的研究工具。

30B-A3B 變體是希望在適度硬體上執行高品質模型的組織的絕佳選擇。僅有 3B 活躍參數，它可以以低延遲服務即時應用，同時提供超越大多數 7B-14B 密集模型的品質。235B-A22B 旗艦針對高能力應用：複雜推理、創意生成、專家級分析和代理工作流程。

Hardware Requirements

密集 Qwen 3 模型有標準需求：0.6B 在 Q4_K_M 下約需 500MB，4B 約 2.5GB，8B 約 5GB，14B 約 8.5GB，32B 約 19GB。這些在消費級硬體上（較小規格）和伺服器級硬體上（較大規格）都很容易部署。

MoE 變體需要載入所有專家權重，即使每個 token 僅有一部分處於活躍狀態。30B-A3B 在 Q4_K_M 下需要約 17-18GB RAM，可在單張 24GB GPU 或配備 32GB RAM 的系統上執行。儘管總參數量為 30B，推論速度與 3B 密集模型相當。235B-A22B 在 Q4_K_M 下需要約 130-140GB，需要多 GPU 配置或大記憶體 CPU 推論。

在 Ertas Studio 中進行微調，30B-A3B MoE 模型使用 QLoRA 需要約 18-24GB VRAM，這得益於高效的活躍參數量。密集 8B 模型需要 8-12GB VRAM，密集 14B 需要 12-16GB VRAM。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →