Microsoft 的 Phi-4(14B 稠密)在 Q4_K_M 下約 8.5GB——舒適容納於 10GB 門檻內,並提供出色的單位參數能力。Phi-4 是經由精心策劃合成訓練資料、特別設計來以小搏大的模型,在數學、程式與推理基準上可與規模大得多的通用模型一較高下。MIT 授權使其成為此 VRAM 層級中最強的可商用部署選擇。
Strengths
- MIT 授權——完全允許商用
- 14B 參數在 Q4_K_M 下約 8.5GB,留有脈絡空間
- 以參數量而言,數學與程式推理表現強勁
- Phi-4-mini(3.8B)與 Phi-4-multimodal(5.6B)版本對應更嚴苛限制
Trade-offs
- 大量合成訓練資料在非正式語言中產生痕跡
- 在廣泛多語能力上落後較大型模型
Llama 3 8B 在 Q4_K_M 下約 4.5GB——即使在 6-8GB 顯示卡上,也能為脈絡與 KV 快取留下大量空間。其成熟的社群微調、部署指南與整合生態系,使其成為取得 10GB 以下可運作本地 LLM 阻力最小的途徑。對多數筆電與入門 GPU 部署而言,Llama 3 8B 是可靠處理一般對話、摘要與基本程式碼補全的主力選擇。
Strengths
- Q4_K_M 下 4.5GB,在 6-8GB GPU 上仍有空間
- 龐大的社群微調生態系
- 成熟部署於 Ollama、llama.cpp、vLLM
- Llama Guard 3 安全分類器可作為配套
Trade-offs
- Llama Community License 設有用量上限與標示要求
- 在能力上落後 2026 年前沿的 8B 級模型
Gemma 4 的邊緣版本(e4b 在 Q4_K_M 下約 2.5GB,e2b 約 1.5GB)是出色的小 VRAM 選擇。新採用的 Apache 2.0 授權加上兩種版本皆原生支援多模態,使其在此規模類別中具備獨特能力。對於 4GB 以下 VRAM 的部署(此區間 Llama 3 8B 與 Phi-4 皆放不下),Gemma 4 e2b/e4b 是現有最強選擇——尤其在影像輸入為必要條件時。
Strengths
- e2b 1.5GB,可在內顯與 4GB 以上 GPU 執行
- 原生多模態——是唯一可信的小型多模態選項
- Apache 2.0 授權(Gemma 4 全新採用)
- MLX/llama.cpp 部署支援強
Trade-offs
- 4GB 以下規模相較較大模型能力確實受限
- e2b/e4b 在複雜任務上難以匹敵 8B 以上模型
Qwen 3 的較小版本(4B 在 Q4_K_M 下約 2.5GB,8B 約 5GB)完整涵蓋 10GB 以下層級。Apache 2.0 授權加上 119 種語言的廣泛多語涵蓋,使 Qwen 3 成為國際部署中最強的小 VRAM 選擇。4B 以上版本內含的混合思考模式,提供一般 4B 級模型欠缺的推理能力。對於在消費級硬體上服務非英語使用者的部署,Qwen 3 通常勝過 Llama 3 8B。
Strengths
- Apache 2.0 授權——完全可商用
- 小規模即可支援 119 種語言
- 4B 以上版本支援混合思考模式
- 原生 Qwen-Agent 整合支援 MCP 與工具呼叫
Trade-offs
- MLX/社群生態系較 Llama 3 小
- 在等效量化下,8B 版本略大於 Llama 3 8B
TII 的 Falcon H1R-7B 在 Q4_K_M 下約 4.5GB,並提供出色的數學推理能力——AIME 2025 拿下 83.1%,可與規模 5-7 倍於它的推理模型分庭抗禮。混合 Mamba+Transformer 架構在相同參數量下提供優於純 Transformer 替代品的長脈絡效率,可在 16GB 以上裝置上支援 256K 脈絡。對於專注數學、科學或推理工作負載的 10GB 以下部署,H1R 在其規模類別中具備獨特能力。
Strengths
- AIME 2025 達 83.1%——以 7B 而言極為出色
- 透過混合 Mamba+Transformer 架構支援 256K 脈絡視窗
- 在小規模下具強大長脈絡效率
- Falcon LLM License(允許商用)
Trade-offs
- Falcon LLM License 並非 Apache 2.0(商用前需審視)
- 強項集中於數學/推理,而非一般對話
- 混合架構需較新版本的 llama.cpp/vLLM