Back to blog
    如何為行動應用程式加入 AI:開發者決策指南
    mobile AIapp developmentcloud APIon-device AIiOSAndroidsegment:mobile-builder

    如何為行動應用程式加入 AI:開發者決策指南

    涵蓋在 iOS 和 Android 應用程式中加入 AI 功能的所有方法。雲端 API、裝置端模型和混合架構,搭配實際成本與效能數據完整比較。

    EErtas Team·

    你想為行動應用程式加入 AI 功能。也許是應用程式內的助手、智慧搜尋、內容撰寫,或是分類功能。問題不在於是否要加入 AI,而在於如何加入。

    有三種根本不同的方法,各有不同的成本結構、效能特性和取捨。選錯方法會讓你浪費金錢或數個月的重工時間。本指南幫助你在撰寫任何程式碼之前,選擇正確的方法。

    三種方法

    1. 雲端 API(OpenAI、Anthropic、Google)

    在應用程式中加入 AI 最快的方式。向雲端端點發送 HTTP 請求,取得回應。OpenAI 的 GPT-4o、Anthropic 的 Claude 和 Google 的 Gemini 是最熱門的選項。

    運作方式: 你的應用程式將使用者的輸入傳送到雲端伺服器。伺服器在大型模型上執行推論。回應透過網路回傳。你的應用程式顯示結果。

    費用: 按 token 計價。每次請求、每位使用者、每次互動都有成本。GPT-4o 收費每百萬輸入 token $2.50,每百萬輸出 token $10.00。GPT-4o-mini 較便宜,為 $0.15/$0.60。Gemini Flash 是最經濟的選項,為 $0.10/$0.40。

    以 10,000 位月活躍使用者、典型 AI 助手模式(每天 3 次互動、每次互動 1,000 個 token)計算,每月費用從 $67(Gemini Flash)到 $5,625(GPT-4o)不等。這些費用隨你新增的每位使用者線性成長。

    適用時機: 原型開發和驗證。需要前沿模型推理能力的任務。非常低流量的應用程式(少於 1,000 MAU)。需要即時存取即時資料的功能。

    不適用時機: AI 作為核心功能且頻繁使用的任何應用程式。涉及隱私的使用情境。需要離線功能的應用程式。對成本敏感的擴展情境。

    2. 裝置端模型(微調 + llama.cpp)

    直接在使用者手機上執行 AI 推論。儲存在裝置上的微調模型在本地處理請求。不需要網路。沒有每次請求的費用。

    運作方式: 你使用 LoRA 適配器在特定任務上微調一個小型語言模型(10 億到 30 億參數)。匯出為 GGUF 檔案。與應用程式一起發布或安裝後下載。模型透過 llama.cpp 在裝置上執行,使用手機的 CPU 和 GPU。

    費用: 一次性的微調費用,每次訓練 $5-50。透過 CDN 分發模型(大約每 GB $0.08,分攤到各使用者)。之後推論永久免費。無論你有多少使用者或他們多頻繁使用功能,每次請求成本為零。

    以 10,000 MAU 計算:推論每月 $0(相比雲端 API 的 $67-$5,625)。

    適用時機: 高流量 AI 功能(聊天、搜尋、分類)。涉及隱私的資料(健康、金融、個人訊息)。需要離線支援的應用程式。領域特定任務,其中微調的 3B 模型優於通用 GPT-4 提示(根據已發布的基準測試,領域任務準確率 94% 對比 71%)。

    不適用時機: 需要前沿模型推理能力處理新穎輸入的任務。需要存取即時外部資料的功能。RAM 不足 4GB 的極受限裝置。

    3. 混合架構

    根據複雜度路由請求。簡單、高流量的任務交給裝置端模型。複雜、低頻率的任務交給雲端 API。

    運作方式: 你的應用程式評估每個請求,並將其路由到本地模型或雲端端點。路由可以基於規則(任務類型)或基於信心度(如果本地模型的信心度低於閾值,就升級到雲端)。

    費用: 80-90% 的請求在裝置端推論,邊際成本為零。雲端 API 只對真正需要前沿能力的 10-20% 請求收費。

    適用時機: 同時包含簡單和複雜 AI 任務的應用程式。從雲端到裝置端的漸進式遷移。在初期裝置端部署時需要雲端作為備援。

    決策矩陣

    因素雲端 API裝置端混合
    建置時間數小時數天數天
    1K MAU 費用$7-$563/月約 $0/月$1-$56/月
    100K MAU 費用$675-$56,250/月約 $0/月$68-$5,625/月
    延遲(首個 token 時間)500ms-3,000ms50-200ms依路由而異
    離線支援部分
    隱私資料傳送給第三方資料留在裝置上部分
    模型品質(一般任務)最高良好(微調後)兩者兼具
    模型品質(領域任務)良好最高(微調後)最高
    供應商依賴
    模型更新速度即時(API 端)OTA 推送(數小時)混合

    手機上實際能跑什麼?

    現代智慧型手機的能力超出大多數開發者的預期。iPhone 15(A17,8GB RAM)以每秒 20-30 個 token 的速度執行 30 億參數模型。Pixel 8(Tensor G3,12GB)達到類似效能。這對即時聊天、即時分類和流暢的內容生成來說已經夠快了。

    關鍵限制是 RAM。一個量化到 4 位元(Q4_K_M)的 3B 模型需要大約 1.7GB 的 RAM。過去兩年的大多數旗艦手機有 6-12GB。扣除作業系統和其他應用程式後,仍有足夠的空間容納這個大小的模型。

    以下是 Q4 量化的實際模型大小供參考:

    模型大小GGUF 檔案大小 (Q4)所需 RAM裝置等級
    10 億參數約 600MB約 800MB中階(2023 年後)
    30 億參數約 1.7GB約 2.2GB旗艦(2022 年後)
    70 億參數約 4.0GB約 5.0GB僅限高階旗艦

    1-3B 的範圍是 2026 年行動裝置部署的實用甜蜜點。

    成本曲線

    雲端 API 與裝置端模型的經濟效益遵循一個可預測的模式。在非常低的流量時(少於 100 MAU),雲端 API 較便宜,因為微調費用($5-50)超過每月的 API 帳單。但損益平衡點來得很快。

    以 GPT-4o-mini 的 $0.15/$0.60 每百萬 token,以及典型的行動助手模式(每天 3 次互動、每次 1,000 個 token)計算:

    • 100 MAU: 雲端費用 $3.37/月。裝置端費用 $0。微調在 2-15 個月內回本。
    • 1,000 MAU: 雲端費用 $33.75/月。第一個月就回本。
    • 10,000 MAU: 雲端費用 $337.50/月。微調在第一個計費週期就回本。

    使用 GPT-4o 時,損益平衡點來得更快,因為月費高出 15-25 倍。

    關鍵洞察:雲端 API 是隨每位使用者成長的變動成本。裝置端推論是不會成長的固定成本。這從根本上改變了你的單位經濟效益。

    產業趨勢

    趨勢很明確。Apple 大力投資裝置端 ML,包括 CoreML 和 Neural Engine 最佳化。Google 專門為裝置端推論推出 Gemini Nano。Meta 發布了 Llama 3.2,包含專為行動裝置設計的 1B 和 3B 模型。Qualcomm、MediaTek 和 Samsung 正在將專用 NPU 整合到他們的晶片組中。

    工具生態系統已經成熟。llama.cpp 為 iOS 和 Android 提供生產級推論。GGUF 已成為可攜式模型部署的標準格式。使用 LoRA 的微調對沒有 ML 背景的開發者也很容易上手。

    剩餘的門檻是微調步驟本身。準備訓練資料、執行微調工作、匯出 GGUF 仍涉及多種工具和一些 ML 知識。像 Ertas 這樣的平台正在縮小這個差距,提供一個視覺化介面處理完整流程:上傳資料、在雲端 GPU 上微調、匯出 GGUF、部署到你的應用程式。不需要寫程式碼,不需要 ML 專業知識,大約 2 分鐘即可完成設定。

    從何開始

    如果你從零開始,先使用雲端 API。它能以最少的投入驗證功能和使用者需求。建立功能、發布它、確認使用者會使用它。

    一旦你驗證了功能並有了真實的使用數據,你同時也有了真實的訓練資料。你的 API 日誌就是你的微調資料集。在以下時機轉向裝置端:你的 API 費用已經很可觀、你的使用者需要離線存取,或隱私要求需要它。

    遷移路徑很明確:從 API 日誌中擷取訓練資料、微調小型模型、整合 llama.cpp、對雲端基準線進行 A/B 測試、然後遷移。許多開發者反映完整遷移大約需要 2-4 週。

    正確的方法取決於你所處的階段。但如果你正在建立一個使用者每天使用 AI 功能的行動應用程式,數學結果指向核心工作負載使用裝置端推論。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading