
如何為行動應用程式加入 AI:開發者決策指南
涵蓋在 iOS 和 Android 應用程式中加入 AI 功能的所有方法。雲端 API、裝置端模型和混合架構,搭配實際成本與效能數據完整比較。
你想為行動應用程式加入 AI 功能。也許是應用程式內的助手、智慧搜尋、內容撰寫,或是分類功能。問題不在於是否要加入 AI,而在於如何加入。
有三種根本不同的方法,各有不同的成本結構、效能特性和取捨。選錯方法會讓你浪費金錢或數個月的 重工時間。本指南幫助你在撰寫任何程式碼之前,選擇正確的方法。
三種方法
1. 雲端 API(OpenAI、Anthropic、Google)
在應用程式中加入 AI 最快的方式。向雲端端點發送 HTTP 請求,取得回應。OpenAI 的 GPT-4o、Anthropic 的 Claude 和 Google 的 Gemini 是最熱門的選項。
運作方式: 你的應用程式將使用者的輸入傳送到雲端伺服器。伺服器在大型模型上執行推論。回應透過網路回傳。你的應用程式顯示結果。
費用: 按 token 計價。每次請求、每位使用者、每次互動都有成本。GPT-4o 收費每百萬輸入 token $2.50,每百萬輸出 token $10.00。GPT-4o-mini 較便宜,為 $0.15/$0.60。Gemini Flash 是最經濟的選項,為 $0.10/$0.40。
以 10,000 位月活躍使用者、典型 AI 助手模式(每天 3 次互動、每次互動 1,000 個 token)計算,每月費用從 $67(Gemini Flash)到 $5,625(GPT-4o)不等。這些費用隨你新增的每位使用者線性成長。
適用時機: 原型開發和驗證。需要前沿模型推理能力的任務。非常低流量的應用程式(少於 1,000 MAU)。需要即時存取即時資料的功能。
不適用時機: AI 作為核心功能且頻繁使用的任何應用程式。涉及隱私的使用情境。需要離線功能的應用程式。對成本敏感的擴展情境。
2. 裝置端模型(微調 + llama.cpp)
直接在使用者手機上執行 AI 推論。儲存在裝置上的微調模型在本地處理請求。不需要網路。沒有每次請求的費用。
運作方式: 你使用 LoRA 適配器在特定任務上微調一個小型語言模型(10 億到 30 億參數)。匯出為 GGUF 檔案。與應用程式一起發布或安裝後下載。模型透過 llama.cpp 在裝置上執行,使用手機的 CPU 和 GPU。
費用: 一次性的微調費用,每次訓練 $5-50。透過 CDN 分發模型(大約每 GB $0.08,分攤到各使用者)。之後推論永久免費。無論你有多少使用者或他們多頻繁使用功能,每次請求成本為零。
以 10,000 MAU 計算:推論每月 $0(相比雲端 API 的 $67-$5,625)。
適用時機: 高流量 AI 功能(聊天、搜尋、分類)。涉及隱私的資料(健康、金融、個人訊息)。需要離線支援的應用程式。領域特定任務,其中微調的 3B 模型優於通用 GPT-4 提示(根據已發布的基準測試,領域任務準確率 94% 對比 71%)。
不適用時機: 需要前沿模型推理能力處理新穎輸入的任務。需要存取即時外部資料的功能。RAM 不足 4GB 的極受限裝置。
3. 混合架構
根據複雜度路由請求。簡單、高流量的任務交給裝置端模型。複雜、低頻率的任務交給雲端 API。
運作方式: 你的應用程式評估每個請求,並將其路由到本地模型或雲端端點。路由可以基於規則(任務類型)或基於信心度(如果本地模型的信心度低於閾值,就升級到雲端)。
費用: 80-90% 的請求在裝置端推論,邊際成本為零。雲端 API 只對真正需要前沿能力的 10-20% 請求收費。
適用時機: 同時包含簡單和複雜 AI 任務的應用程式。從雲端到裝置端的漸進式遷移。在初期裝置端部署時需要雲端作為備援。
決策矩陣
| 因素 | 雲端 API | 裝置端 | 混合 |
|---|---|---|---|
| 建置時間 | 數小時 | 數天 | 數天 |
| 1K MAU 費用 | $7-$563/月 | 約 $0/月 | $1-$56/月 |
| 100K MAU 費用 | $675-$56,250/月 | 約 $0/月 | $68-$5,625/月 |
| 延遲(首個 token 時間) | 500ms-3,000ms | 50-200ms | 依 路由而異 |
| 離線支援 | 否 | 是 | 部分 |
| 隱私 | 資料傳送給第三方 | 資料留在裝置上 | 部分 |
| 模型品質(一般任務) | 最高 | 良好(微調後) | 兩者兼具 |
| 模型品質(領域任務) | 良好 | 最高(微調後) | 最高 |
| 供應商依賴 | 高 | 無 | 低 |
| 模型更新速度 | 即時(API 端) | OTA 推送(數小時) | 混合 |
手機上實際能跑什麼?
現代智慧型手機的能力超出大多數開發者的預期。iPhone 15(A17,8GB RAM)以每秒 20-30 個 token 的速度執行 30 億參數模型。Pixel 8(Tensor G3,12GB)達到類似效能。這對即時聊天、即時分類和流暢的內容生成來說已經夠快了。
關鍵限制是 RAM。一個量化到 4 位元(Q4_K_M)的 3B 模型需要大約 1.7GB 的 RAM。過去兩年的大多數旗艦手機有 6-12GB。扣除作業系統和其他應用程式後,仍有足夠的空間容納這個大小的模型。
以下是 Q4 量化的實際模型大小供參考:
| 模型大小 | GGUF 檔案大小 (Q4) | 所需 RAM | 裝置等級 |
|---|---|---|---|
| 10 億參數 | 約 600MB | 約 800MB | 中階(2023 年後) |
| 30 億參數 | 約 1.7GB | 約 2.2GB | 旗艦(2022 年後) |
| 70 億參數 | 約 4.0GB | 約 5.0GB | 僅限高階旗艦 |
1-3B 的範圍是 2026 年行動裝置部署的實用甜蜜點。
成本曲線
雲端 API 與裝置端模型的經濟效益遵循一個可預測的模式。在非常低的流量時(少於 100 MAU),雲端 API 較便宜,因為微調費用($5-50)超過每月的 API 帳單。但損益平衡點來得很快。
以 GPT-4o-mini 的 $0.15/$0.60 每百萬 token,以及典型的行動助手模式(每天 3 次互動、每次 1,000 個 token)計算:
- 100 MAU: 雲端費用 $3.37/月。裝置端費用 $0。微調在 2-15 個月內回本。
- 1,000 MAU: 雲端費用 $33.75/月。第一個月就回本。
- 10,000 MAU: 雲端費用 $337.50/月。微調在第一個計費週期就回本。
使用 GPT-4o 時,損益平衡點來得更快,因為月費高出 15-25 倍。
關鍵洞察:雲端 API 是隨每位使用者成長的變動成本。裝置端推論是不會成長的固定成本。這從根本上改變了你的單位經濟效益。
產業趨勢
趨勢很明確。Apple 大力投資裝置端 ML,包括 CoreML 和 Neural Engine 最佳化。Google 專門為裝置端推論推出 Gemini Nano。Meta 發布了 Llama 3.2,包含專為行動裝置設計的 1B 和 3B 模型。Qualcomm、MediaTek 和 Samsung 正在將專用 NPU 整合到他們的晶片組中。
工具生態系統已經成熟。llama.cpp 為 iOS 和 Android 提供生產級推論。GGUF 已成為可攜式模型部署的標準格式。使用 LoRA 的微調對沒有 ML 背景的開發者也很容易上手。
剩餘的門檻是微調步驟本身。準備訓練資料、執行微調工作、匯出 GGUF 仍涉及多種工具和一些 ML 知識。像 Ertas 這樣的平台正在縮小這個差距,提供一個視覺化介面處理完整流程:上傳資料、在雲端 GPU 上微調、匯出 GGUF、部署到你的應用程式。不需要寫程式碼,不需要 ML 專業知識,大約 2 分鐘即可完成設定。
從何開始
如果你從零開始,先使用雲端 API。它能以最少的投入驗證功能和使用者需求。建立功能、發布它、確認使用者會使用它。
一旦你驗證了功能並有了真實的使用數據,你同時也有了真實的訓練資料。你的 API 日誌就是你的微調資料集。在以下時機轉向裝置端:你的 API 費用已經很可觀、你的使用者需要離線存取,或隱私要求需要它。
遷移路徑很明確:從 API 日誌中擷取訓練資料、微調小型模型、整合 llama.cpp、對雲端基準線進行 A/B 測試、然後遷移。許多開發者反映完整遷移大約需要 2-4 週。
正確的方法取決於你所處的階段。但如果你正在建立一個使用者每天使用 AI 功能的行動應用程式,數學結果指向核心工作負載使用裝置端推論。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

AI in iOS Apps: CoreML, Cloud APIs, and On-Device LLMs Compared
Three paths to AI in your iOS app. CoreML for Apple's ecosystem, cloud APIs for capability, and on-device LLMs via llama.cpp for cost and privacy. A practical comparison for Swift developers.

AI in Android Apps: ML Kit, Cloud APIs, and On-Device LLMs Compared
Three paths to AI in your Android app. Google ML Kit for common tasks, cloud APIs for full LLM capability, and on-device models via llama.cpp for cost and privacy. A practical comparison for Kotlin developers.

Migrating from Cloud API to On-Device AI: The Complete Guide
A step-by-step migration plan for moving your mobile app from cloud AI APIs to on-device inference. Data extraction, fine-tuning, integration, testing, rollout, and monitoring.