Back to blog
    Google Gemini API 行動端指南:定價、限制與何時轉向裝置端
    Google GeminiAPImobile developmentAndroidcost optimizationsegment:mobile-builder

    Google Gemini API 行動端指南:定價、限制與何時轉向裝置端

    Google 的 Gemini API 提供積極的定價和原生 Android 整合。這是規模化時定價的真實樣貌、免費方案的上限,以及何時裝置端模型更有意義。

    EErtas Team·

    Google 的 Gemini 是最便宜的主要 AI API。Gemini 2.0 Flash 每百萬輸入 token 收費 $0.10,每百萬輸出 token 收費 $0.40。比 GPT-4o-mini 便宜 33%。還有免費方案,配額相當大方。

    對於 Android 開發者,Google 提供原生 SDK,直接整合到你的 Kotlin 程式碼中。不需要手動處理 REST。

    這聽起來很適合行動應用程式。以下是現實中更細緻的部分。

    定價優勢

    模型輸入(每百萬 token)輸出(每百萬 token)
    Gemini 2.0 Flash$0.10$0.40
    Gemini 2.0 Flash-Lite$0.075$0.30
    Gemini 1.5 Pro$1.25$5.00
    GPT-4o-mini(比較用)$0.15$0.60
    Claude 3.5 Haiku(比較用)$0.80$4.00

    Gemini Flash 確實是主要供應商中按 token 推論最便宜的選項。如果你能接受稍微降低的能力,Flash-Lite 更便宜。

    免費方案

    Google 透過 Google AI Studio 提供 Gemini API 免費方案:

    • 速率限制: 每分鐘 15 個請求
    • 每日限制: 每天 1,500 個請求
    • Token 限制: 每分鐘 100 萬 token
    • 不需要信用卡

    這對開發和測試來說很大方。它甚至可以支撐流量有限的小型生產應用程式。以每天 1,500 個請求計算,你可以在每位使用者每天 30 個請求的情況下服務大約 50 MAU。

    但有個問題:免費方案沒有 SLA、沒有保證的正常運行時間,且 Google 隨時可以更改條款。它不是一個生產基礎。

    原生 Android SDK

    Google 提供 Google AI Client SDK for Android,這是所有 AI 供應商中最乾淨的行動端整合:

    val model = GenerativeModel(
        modelName = "gemini-2.0-flash",
        apiKey = BuildConfig.GEMINI_API_KEY
    )
    
    // 簡單生成
    val response = model.generateContent("摘要這篇文章:$text")
    println(response.text)
    
    // 串流
    model.generateContentStream("撰寫回覆:$email").collect { chunk ->
        responseText += chunk.text ?: ""
    }

    這比對 OpenAI 的原始 REST 呼叫更乾淨。SDK 處理序列化、錯誤處理和串流。

    對於 iOS,也有透過 Swift Package Manager 提供的 Swift SDK,遵循相同的模式。

    規模化成本

    即使在最便宜的每 token 費率下,隨使用者線性擴展仍然會累積。

    使用相同的基準(每天 3 次互動、每次 1,000 個 token、Gemini Flash 的 $0.10/$0.40):

    MAU天真月費真實費用(3 倍乘數)
    1,000$22.50$67.50
    5,000$112.50$337.50
    10,000$225.00$675.00
    50,000$1,125.00$3,375.00
    100,000$2,250.00$6,750.00

    在 100K MAU 時,使用真實成本乘數,Gemini Flash 每月費用 $6,750。比 GPT-4o-mini($10,125)便宜,但仍然是隨每位使用者成長的重大支出。

    Gemini Nano:Google 的裝置端選項

    Google 有自己的裝置端模型:Gemini Nano。它透過 Android AICore 直接在手機上執行。零 API 費用,零延遲。

    但限制很大:

    裝置限制: 僅在 Pixel 8/9 系列和 Samsung Galaxy S24/S25 系列上可用。這只是 Android 市場的一小部分。

    無自訂模型: 你不能微調 Gemini Nano。你不能使用自己的模型。你只能使用 Google 預先配置的功能。

    有限任務: 摘要、智慧回覆和少數其他預定義功能。沒有帶有自訂行為的開放式文字生成。

    API 限制: 存取是透過 AICore API,與 Gemini Cloud API 不同。不同的整合方式,不同的功能。

    對於需要跨所有 Android 裝置、帶有自訂模型行為的裝置端 AI 的開發者,Gemini Nano 不是解決方案。

    Gemini API vs Gemini Nano vs GGUF 裝置端

    因素Gemini API (Flash)Gemini NanoGGUF + llama.cpp
    每次推論費用$0.0001-$0.001$0$0
    裝置覆蓋率所有(連網)Pixel 8+, Galaxy S24+任何 4GB+ 裝置
    自訂模型是(任何 GGUF)
    微調完整 LoRA/QLoRA
    離線
    支援的任務所有(雲端模型)有限預定義所有文字生成
    模型控制完全
    領域準確率良好(提示)不適用優秀(微調)

    何時使用哪一個

    Gemini API 是成本敏感行動應用程式的最佳雲端 API 選擇。如果你需要雲端 API 做原型開發或低流量功能,Gemini Flash 是最經濟的選項。原生 Android SDK 讓整合比競爭供應商更順暢。

    Gemini Nano 在你的應用程式專門針對 Pixel 和 Samsung 旗艦機,且只需要摘要或智慧回覆時有用。對大多數開發者來說,裝置限制使它不適合作為主要 AI 策略。

    GGUF + llama.cpp 是當你需要跨所有裝置的自訂 AI 行為、離線支援、隱私和零每次推論費用時的正確選擇。使用像 Ertas 這樣的平台在你的領域資料上微調模型,匯出為 GGUF,在任何有足夠 RAM 的裝置上執行。

    實際路徑

    從 Gemini Flash 開始,取得最便宜的雲端 AI 驗證。在開發和早期測試期間使用免費方案。從第一天就監控你的 token 使用量和每位使用者的成本。

    當你超過 5,000 MAU,或你每月的 Gemini 帳單超過一次性微調費用時,就是評估裝置端的時候了。你的 Gemini API 日誌包含微調所需的訓練資料。遷移路徑很直接:擷取訓練資料、使用 LoRA 微調、匯出 GGUF、整合 llama.cpp,並對你的 Gemini 基準線進行 A/B 測試。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading