如何為行動應用程式加入 AI：開發者決策指南

你想為行動應用程式加入 AI 功能。也許是應用程式內的助手、智慧搜尋、內容撰寫，或是分類功能。問題不在於是否要加入 AI，而在於如何加入。

有三種根本不同的方法，各有不同的成本結構、效能特性和取捨。選錯方法會讓你浪費金錢或數個月的重工時間。本指南幫助你在撰寫任何程式碼之前，選擇正確的方法。

三種方法

1. 雲端 API（OpenAI、Anthropic、Google）

在應用程式中加入 AI 最快的方式。向雲端端點發送 HTTP 請求，取得回應。OpenAI 的 GPT-4o、Anthropic 的 Claude 和 Google 的 Gemini 是最熱門的選項。

運作方式： 你的應用程式將使用者的輸入傳送到雲端伺服器。伺服器在大型模型上執行推論。回應透過網路回傳。你的應用程式顯示結果。

費用： 按 token 計價。每次請求、每位使用者、每次互動都有成本。GPT-4o 收費每百萬輸入 token $2.50，每百萬輸出 token $10.00。GPT-4o-mini 較便宜，為 $0.15/$0.60。Gemini Flash 是最經濟的選項，為 $0.10/$0.40。

以 10,000 位月活躍使用者、典型 AI 助手模式（每天 3 次互動、每次互動 1,000 個 token）計算，每月費用從 $67（Gemini Flash）到 $5,625（GPT-4o）不等。這些費用隨你新增的每位使用者線性成長。

適用時機： 原型開發和驗證。需要前沿模型推理能力的任務。非常低流量的應用程式（少於 1,000 MAU）。需要即時存取即時資料的功能。

不適用時機： AI 作為核心功能且頻繁使用的任何應用程式。涉及隱私的使用情境。需要離線功能的應用程式。對成本敏感的擴展情境。

2. 裝置端模型（微調 + llama.cpp）

直接在使用者手機上執行 AI 推論。儲存在裝置上的微調模型在本地處理請求。不需要網路。沒有每次請求的費用。

運作方式： 你使用 LoRA 適配器在特定任務上微調一個小型語言模型（10 億到 30 億參數）。匯出為 GGUF 檔案。與應用程式一起發布或安裝後下載。模型透過 llama.cpp 在裝置上執行，使用手機的 CPU 和 GPU。

費用： 一次性的微調費用，每次訓練 $5-50。透過 CDN 分發模型（大約每 GB $0.08，分攤到各使用者）。之後推論永久免費。無論你有多少使用者或他們多頻繁使用功能，每次請求成本為零。

以 10,000 MAU 計算：推論每月 $0（相比雲端 API 的 $67-$5,625）。

適用時機： 高流量 AI 功能（聊天、搜尋、分類）。涉及隱私的資料（健康、金融、個人訊息）。需要離線支援的應用程式。領域特定任務，其中微調的 3B 模型優於通用 GPT-4 提示（根據已發布的基準測試，領域任務準確率 94% 對比 71%）。

不適用時機： 需要前沿模型推理能力處理新穎輸入的任務。需要存取即時外部資料的功能。RAM 不足 4GB 的極受限裝置。

3. 混合架構

根據複雜度路由請求。簡單、高流量的任務交給裝置端模型。複雜、低頻率的任務交給雲端 API。

運作方式： 你的應用程式評估每個請求，並將其路由到本地模型或雲端端點。路由可以基於規則（任務類型）或基於信心度（如果本地模型的信心度低於閾值，就升級到雲端）。

費用： 80-90% 的請求在裝置端推論，邊際成本為零。雲端 API 只對真正需要前沿能力的 10-20% 請求收費。

適用時機： 同時包含簡單和複雜 AI 任務的應用程式。從雲端到裝置端的漸進式遷移。在初期裝置端部署時需要雲端作為備援。

決策矩陣

因素	雲端 API	裝置端	混合
建置時間	數小時	數天	數天
1K MAU 費用	$7-$563/月	約 $0/月	$1-$56/月
100K MAU 費用	$675-$56,250/月	約 $0/月	$68-$5,625/月
延遲（首個 token 時間）	500ms-3,000ms	50-200ms	依路由而異
離線支援	否	是	部分
隱私	資料傳送給第三方	資料留在裝置上	部分
模型品質（一般任務）	最高	良好（微調後）	兩者兼具
模型品質（領域任務）	良好	最高（微調後）	最高
供應商依賴	高	無	低
模型更新速度	即時（API 端）	OTA 推送（數小時）	混合

手機上實際能跑什麼？

現代智慧型手機的能力超出大多數開發者的預期。iPhone 15（A17，8GB RAM）以每秒 20-30 個 token 的速度執行 30 億參數模型。Pixel 8（Tensor G3，12GB）達到類似效能。這對即時聊天、即時分類和流暢的內容生成來說已經夠快了。

關鍵限制是 RAM。一個量化到 4 位元（Q4_K_M）的 3B 模型需要大約 1.7GB 的 RAM。過去兩年的大多數旗艦手機有 6-12GB。扣除作業系統和其他應用程式後，仍有足夠的空間容納這個大小的模型。

以下是 Q4 量化的實際模型大小供參考：

模型大小	GGUF 檔案大小 (Q4)	所需 RAM	裝置等級
10 億參數	約 600MB	約 800MB	中階（2023 年後）
30 億參數	約 1.7GB	約 2.2GB	旗艦（2022 年後）
70 億參數	約 4.0GB	約 5.0GB	僅限高階旗艦

1-3B 的範圍是 2026 年行動裝置部署的實用甜蜜點。

成本曲線

雲端 API 與裝置端模型的經濟效益遵循一個可預測的模式。在非常低的流量時（少於 100 MAU），雲端 API 較便宜，因為微調費用（$5-50）超過每月的 API 帳單。但損益平衡點來得很快。

以 GPT-4o-mini 的 $0.15/$0.60 每百萬 token，以及典型的行動助手模式（每天 3 次互動、每次 1,000 個 token）計算：

100 MAU： 雲端費用 $3.37/月。裝置端費用 $0。微調在 2-15 個月內回本。
1,000 MAU： 雲端費用 $33.75/月。第一個月就回本。
10,000 MAU： 雲端費用 $337.50/月。微調在第一個計費週期就回本。

使用 GPT-4o 時，損益平衡點來得更快，因為月費高出 15-25 倍。

關鍵洞察：雲端 API 是隨每位使用者成長的變動成本。裝置端推論是不會成長的固定成本。這從根本上改變了你的單位經濟效益。

產業趨勢

趨勢很明確。Apple 大力投資裝置端 ML，包括 CoreML 和 Neural Engine 最佳化。Google 專門為裝置端推論推出 Gemini Nano。Meta 發布了 Llama 3.2，包含專為行動裝置設計的 1B 和 3B 模型。Qualcomm、MediaTek 和 Samsung 正在將專用 NPU 整合到他們的晶片組中。

工具生態系統已經成熟。llama.cpp 為 iOS 和 Android 提供生產級推論。GGUF 已成為可攜式模型部署的標準格式。使用 LoRA 的微調對沒有 ML 背景的開發者也很容易上手。

剩餘的門檻是微調步驟本身。準備訓練資料、執行微調工作、匯出 GGUF 仍涉及多種工具和一些 ML 知識。像 Ertas 這樣的平台正在縮小這個差距，提供一個視覺化介面處理完整流程：上傳資料、在雲端 GPU 上微調、匯出 GGUF、部署到你的應用程式。不需要寫程式碼，不需要 ML 專業知識，大約 2 分鐘即可完成設定。

從何開始

如果你從零開始，先使用雲端 API。它能以最少的投入驗證功能和使用者需求。建立功能、發布它、確認使用者會使用它。

一旦你驗證了功能並有了真實的使用數據，你同時也有了真實的訓練資料。你的 API 日誌就是你的微調資料集。在以下時機轉向裝置端：你的 API 費用已經很可觀、你的使用者需要離線存取，或隱私要求需要它。

遷移路徑很明確：從 API 日誌中擷取訓練資料、微調小型模型、整合 llama.cpp、對雲端基準線進行 A/B 測試、然後遷移。許多開發者反映完整遷移大約需要 2-4 週。

正確的方法取決於你所處的階段。但如果你正在建立一個使用者每天使用 AI 功能的行動應用程式，數學結果指向核心工作負載使用裝置端推論。

如何為行動應用程式加入 AI：開發者決策指南

三種方法

1. 雲端 API（OpenAI、Anthropic、Google）

2. 裝置端模型（微調 + llama.cpp）

3. 混合架構

決策矩陣

手機上實際能跑什麼？

成本曲線

產業趨勢

從何開始

Ship AI that runs on your users' devices.

Keep reading

Android 應用程式的 AI：ML Kit、雲端 API 與裝置端 LLM 比較

iOS 應用程式的 AI：CoreML、雲端 API 與裝置端 LLM 比較

從雲端 API 遷移到裝置端 AI：完整指南