裝置端 AI 模型大小指南：行動裝置的 1B vs 3B vs 7B

為你的行動應用程式選擇正確的模型大小是裝置端 AI 中最關鍵的技術決策。太小則模型無法處理你的任務。太大則運行緩慢、使用過多記憶體，或排除太多裝置。

正確答案取決於你的任務、目標裝置，以及是否進行微調。

大小範圍

參數量	GGUF Q4 大小	所需 RAM	裝置需求
1B	~600MB	~800MB	4GB+ RAM（任何現代手機）
3B	~1.7GB	~2.2GB	6GB+ RAM（2023+ 中階）
7B	~4GB	~5GB	8GB+ RAM（僅旗艦）

這些大小假設使用 Q4_K_M 量化，它提供了大小縮減和品質保留之間的最佳平衡。更高的量化（Q5、Q8）增加 25-100% 的大小，但品質改善甚微。

每種大小能做什麼

1B 模型

優勢：

文字分類（情感、類別、意圖）
自動完成和文字預測
智慧建議（回覆建議、動作建議）
命名實體辨識
簡單問答搭配短回應
關鍵字擷取和標記

限制：

有限的推理能力
簡短、有時重複的生成
難以處理細緻的指令
無法維持連貫的長篇輸出

最適合： 將輸入轉換為結構化輸出的功能。分類、標記、建議和短篇生成。

3B 模型

優勢：

具有多輪連貫性的對話聊天
文章和文件摘要
內容草稿撰寫（電子郵件、訊息、筆記）
常見語言對之間的翻譯
複雜指令遵循
結構化輸出生成（JSON、格式化文字）

限制：

比 1B 慢（大約一半的速度）
無法匹配前沿模型的推理能力（GPT-4、Claude Sonnet）
沒有微調的情況下可能在高度技術性或專業內容上表現不佳
使用 2-3 倍於 1B 的記憶體

最適合： 生成人類可讀文字的功能。聊天、摘要、內容創作和複雜分類。

7B 模型

優勢：

更強的推理和推論能力
在模糊或開放性任務上表現更好
更穩健的指令遵循
能處理更長、更連貫的輸出

限制：

只能在 8GB+ RAM 的旗艦裝置上運行
生成速度慢（大多數裝置上 5-12 tok/s）
排除了 50-70% 的裝置市場
記憶體壓力導致應用程式不穩定

最適合： 行動裝置上很少是正確的選擇。裝置覆蓋範圍和效能的權衡太嚴重。如果你需要 7B 品質，改為在你的領域資料上微調 3B 模型。

品質比較

通用基準（基礎模型，未微調）

任務	1B	3B	7B
文字分類準確率	78-85%	85-90%	88-93%
摘要品質（人工評估）	5.5/10	7/10	8/10
指令遵循率	70%	85%	90%
對話連貫性（5 輪）	差	良好	非常好
JSON 輸出可靠性	60%	82%	90%

在領域資料上微調後

任務	1B 微調	3B 微調	雲端 API（提示詞）
領域分類準確率	90-94%	93-96%	71-80%
領域特定問答	82-88%	88-94%	75-82%
結構化輸出可靠性	85-90%	92-96%	80-88%

關鍵洞察：微調的 1B 模型在領域特定任務上優於透過提示詞使用的雲端 API。 微調的 3B 模型則顯著優於它。微調在保持模型小到適合行動裝置的同時，縮小了品質差距。

微調因素

微調改變了大小選擇的計算：

不微調時， 你需要更大的模型來處理你的任務，因為模型依賴通用知識和提示詞指令。你用更多參數來補償領域知識的缺乏。

微調後， 你將領域知識烘焙進模型權重。模型不需要從提示詞中理解你的領域。它已經知道了。這意味著較小的微調模型通常在你的特定任務上匹配或超越較大的通用模型。

實際意義：

需要聊天？從 3B 微調開始。你可能會發現它在你的領域上匹配雲端 API 的品質。
需要分類？從 1B 微調開始。它可能會超越你的雲端 API 準確率。
認為你需要 7B？先微調 3B。測試它。你很可能不需要 7B。

按模型大小的裝置覆蓋範圍

模型大小	iPhone 覆蓋	Android 覆蓋	總可觸及範圍
1B	iPhone 12+（95%+ 在用）	4GB+（85%+ 在用）	約 90% 智慧型手機
3B	iPhone 14+（70%+ 在用）	6GB+（60%+ 在用）	約 65% 智慧型手機
7B	iPhone 15 Pro+（15% 在用）	8GB+ 旗艦（20% 在用）	約 18% 智慧型手機

選擇 1B 而非 3B 大約將你的可觸及裝置市場翻倍。選擇 3B 而非 7B 則增加三倍。

決策框架

步驟 1：定義你的任務

模型在你的應用程式中要做什麼？

任務類型	最低大小	建議大小
分類 / 標記	1B	1B 微調
自動完成 / 建議	1B	1B 微調
短問答（1-2 句）	1B	1B 微調
聊天（多輪）	3B	3B 微調
摘要	3B	3B 微調
內容草稿撰寫	3B	3B 微調
翻譯	1-3B	3B 微調
複雜推理	3B+	3B 微調（先測試）

步驟 2：了解你的受眾

你的使用者擁有什麼裝置？檢查你的分析資料了解裝置 RAM 分布。如果 80% 以上的使用者擁有 6GB+ RAM，3B 是安全的。如果你瞄準發展中市場或注重預算的使用者，1B 是更安全的選擇。

步驟 3：微調並測試

不要猜測。使用像 Ertas 這樣的平台，在你的領域資料上微調 1B 和 3B。用你的品質基準測試兩者。選擇符合你品質標準的最小模型。

微調投入很小（每次訓練運行 $5-50），而測試給你實證依據而非假設。

步驟 4：兩種都提供

理想的架構在運行時偵測可用 RAM 並載入適當的模型：

4-6GB 裝置：1B 微調
6GB+ 裝置：3B 微調
備援：低於 4GB 的裝置使用雲端 API（或不提供 AI 功能）

這最大化了品質和裝置覆蓋範圍。

總結

	1B	3B	7B
檔案大小（Q4）	~600MB	~1.7GB	~4GB
速度（旗艦）	35-50 tok/s	18-30 tok/s	6-12 tok/s
裝置覆蓋	~90%	~65%	~18%
最佳使用場景	分類、建議	聊天、生成	行動裝置上很少適合
微調後品質	超越提示詞雲端 API	顯著超越	如果 3B 已微調則不需要

從能處理你任務的最小模型開始。微調它。測試它。只有在品質確實不足時才選擇更大的。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

裝置端 AI 模型大小指南：行動裝置的 1B vs 3B vs 7B

大小範圍

每種大小能做什麼

1B 模型

3B 模型

7B 模型

品質比較

通用基準（基礎模型，未微調）

在領域資料上微調後

微調因素

按模型大小的裝置覆蓋範圍

決策框架

步驟 1：定義你的任務

步驟 2：了解你的受眾

步驟 3：微調並測試

步驟 4：兩種都提供

總結

Ship AI that runs on your users' devices.

Ship AI that runs on your users' devices.

Keep reading

Gemma 3 行動端：微調與裝置端部署

如何為行動應用程式加入 AI：開發者決策指南

Llama 3.2 行動應用：微調與裝置端部署