Back to blog
    裝置端 AI 模型大小指南:行動裝置的 1B vs 3B vs 7B
    model sizeon-device AImobile AIGGUFarchitecturesegment:mobile-builder

    裝置端 AI 模型大小指南:行動裝置的 1B vs 3B vs 7B

    如何為你的行動應用程式選擇正確的模型大小。能力分解、裝置需求、品質基準,以及改變計算結果的微調因素。

    EErtas Team·

    為你的行動應用程式選擇正確的模型大小是裝置端 AI 中最關鍵的技術決策。太小則模型無法處理你的任務。太大則運行緩慢、使用過多記憶體,或排除太多裝置。

    正確答案取決於你的任務、目標裝置,以及是否進行微調。

    大小範圍

    參數量GGUF Q4 大小所需 RAM裝置需求
    1B~600MB~800MB4GB+ RAM(任何現代手機)
    3B~1.7GB~2.2GB6GB+ RAM(2023+ 中階)
    7B~4GB~5GB8GB+ RAM(僅旗艦)

    這些大小假設使用 Q4_K_M 量化,它提供了大小縮減和品質保留之間的最佳平衡。更高的量化(Q5、Q8)增加 25-100% 的大小,但品質改善甚微。

    每種大小能做什麼

    1B 模型

    優勢:

    • 文字分類(情感、類別、意圖)
    • 自動完成和文字預測
    • 智慧建議(回覆建議、動作建議)
    • 命名實體辨識
    • 簡單問答搭配短回應
    • 關鍵字擷取和標記

    限制:

    • 有限的推理能力
    • 簡短、有時重複的生成
    • 難以處理細緻的指令
    • 無法維持連貫的長篇輸出

    最適合: 將輸入轉換為結構化輸出的功能。分類、標記、建議和短篇生成。

    3B 模型

    優勢:

    • 具有多輪連貫性的對話聊天
    • 文章和文件摘要
    • 內容草稿撰寫(電子郵件、訊息、筆記)
    • 常見語言對之間的翻譯
    • 複雜指令遵循
    • 結構化輸出生成(JSON、格式化文字)

    限制:

    • 比 1B 慢(大約一半的速度)
    • 無法匹配前沿模型的推理能力(GPT-4、Claude Sonnet)
    • 沒有微調的情況下可能在高度技術性或專業內容上表現不佳
    • 使用 2-3 倍於 1B 的記憶體

    最適合: 生成人類可讀文字的功能。聊天、摘要、內容創作和複雜分類。

    7B 模型

    優勢:

    • 更強的推理和推論能力
    • 在模糊或開放性任務上表現更好
    • 更穩健的指令遵循
    • 能處理更長、更連貫的輸出

    限制:

    • 只能在 8GB+ RAM 的旗艦裝置上運行
    • 生成速度慢(大多數裝置上 5-12 tok/s)
    • 排除了 50-70% 的裝置市場
    • 記憶體壓力導致應用程式不穩定

    最適合: 行動裝置上很少是正確的選擇。裝置覆蓋範圍和效能的權衡太嚴重。如果你需要 7B 品質,改為在你的領域資料上微調 3B 模型。

    品質比較

    通用基準(基礎模型,未微調)

    任務1B3B7B
    文字分類準確率78-85%85-90%88-93%
    摘要品質(人工評估)5.5/107/108/10
    指令遵循率70%85%90%
    對話連貫性(5 輪)良好非常好
    JSON 輸出可靠性60%82%90%

    在領域資料上微調後

    任務1B 微調3B 微調雲端 API(提示詞)
    領域分類準確率90-94%93-96%71-80%
    領域特定問答82-88%88-94%75-82%
    結構化輸出可靠性85-90%92-96%80-88%

    關鍵洞察:微調的 1B 模型在領域特定任務上優於透過提示詞使用的雲端 API。 微調的 3B 模型則顯著優於它。微調在保持模型小到適合行動裝置的同時,縮小了品質差距。

    微調因素

    微調改變了大小選擇的計算:

    不微調時, 你需要更大的模型來處理你的任務,因為模型依賴通用知識和提示詞指令。你用更多參數來補償領域知識的缺乏。

    微調後, 你將領域知識烘焙進模型權重。模型不需要從提示詞中理解你的領域。它已經知道了。這意味著較小的微調模型通常在你的特定任務上匹配或超越較大的通用模型。

    實際意義:

    • 需要聊天?從 3B 微調開始。你可能會發現它在你的領域上匹配雲端 API 的品質。
    • 需要分類?從 1B 微調開始。它可能會超越你的雲端 API 準確率。
    • 認為你需要 7B?先微調 3B。測試它。你很可能不需要 7B。

    按模型大小的裝置覆蓋範圍

    模型大小iPhone 覆蓋Android 覆蓋總可觸及範圍
    1BiPhone 12+(95%+ 在用)4GB+(85%+ 在用)約 90% 智慧型手機
    3BiPhone 14+(70%+ 在用)6GB+(60%+ 在用)約 65% 智慧型手機
    7BiPhone 15 Pro+(15% 在用)8GB+ 旗艦(20% 在用)約 18% 智慧型手機

    選擇 1B 而非 3B 大約將你的可觸及裝置市場翻倍。選擇 3B 而非 7B 則增加三倍。

    決策框架

    步驟 1:定義你的任務

    模型在你的應用程式中要做什麼?

    任務類型最低大小建議大小
    分類 / 標記1B1B 微調
    自動完成 / 建議1B1B 微調
    短問答(1-2 句)1B1B 微調
    聊天(多輪)3B3B 微調
    摘要3B3B 微調
    內容草稿撰寫3B3B 微調
    翻譯1-3B3B 微調
    複雜推理3B+3B 微調(先測試)

    步驟 2:了解你的受眾

    你的使用者擁有什麼裝置?檢查你的分析資料了解裝置 RAM 分布。如果 80% 以上的使用者擁有 6GB+ RAM,3B 是安全的。如果你瞄準發展中市場或注重預算的使用者,1B 是更安全的選擇。

    步驟 3:微調並測試

    不要猜測。使用像 Ertas 這樣的平台,在你的領域資料上微調 1B 和 3B。用你的品質基準測試兩者。選擇符合你品質標準的最小模型。

    微調投入很小(每次訓練運行 $5-50),而測試給你實證依據而非假設。

    步驟 4:兩種都提供

    理想的架構在運行時偵測可用 RAM 並載入適當的模型:

    • 4-6GB 裝置:1B 微調
    • 6GB+ 裝置:3B 微調
    • 備援:低於 4GB 的裝置使用雲端 API(或不提供 AI 功能)

    這最大化了品質和裝置覆蓋範圍。

    總結

    1B3B7B
    檔案大小(Q4)~600MB~1.7GB~4GB
    速度(旗艦)35-50 tok/s18-30 tok/s6-12 tok/s
    裝置覆蓋~90%~65%~18%
    最佳使用場景分類、建議聊天、生成行動裝置上很少適合
    微調後品質超越提示詞雲端 API顯著超越如果 3B 已微調則不需要

    從能處理你任務的最小模型開始。微調它。測試它。只有在品質確實不足時才選擇更大的。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading