Google Gemini API 行動端指南：定價、限制與何時轉向裝置端

Google 的 Gemini 是最便宜的主要 AI API。Gemini 2.0 Flash 每百萬輸入 token 收費 $0.10，每百萬輸出 token 收費 $0.40。比 GPT-4o-mini 便宜 33%。還有免費方案，配額相當大方。

對於 Android 開發者，Google 提供原生 SDK，直接整合到你的 Kotlin 程式碼中。不需要手動處理 REST。

這聽起來很適合行動應用程式。以下是現實中更細緻的部分。

定價優勢

模型	輸入（每百萬 token）	輸出（每百萬 token）
Gemini 2.0 Flash	$0.10	$0.40
Gemini 2.0 Flash-Lite	$0.075	$0.30
Gemini 1.5 Pro	$1.25	$5.00
GPT-4o-mini（比較用）	$0.15	$0.60
Claude 3.5 Haiku（比較用）	$0.80	$4.00

Gemini Flash 確實是主要供應商中按 token 推論最便宜的選項。如果你能接受稍微降低的能力，Flash-Lite 更便宜。

免費方案

Google 透過 Google AI Studio 提供 Gemini API 免費方案：

速率限制： 每分鐘 15 個請求
每日限制： 每天 1,500 個請求
Token 限制： 每分鐘 100 萬 token
不需要信用卡

這對開發和測試來說很大方。它甚至可以支撐流量有限的小型生產應用程式。以每天 1,500 個請求計算，你可以在每位使用者每天 30 個請求的情況下服務大約 50 MAU。

但有個問題：免費方案沒有 SLA、沒有保證的正常運行時間，且 Google 隨時可以更改條款。它不是一個生產基礎。

原生 Android SDK

Google 提供 Google AI Client SDK for Android，這是所有 AI 供應商中最乾淨的行動端整合：

val model = GenerativeModel(
    modelName = "gemini-2.0-flash",
    apiKey = BuildConfig.GEMINI_API_KEY
)

// 簡單生成
val response = model.generateContent("摘要這篇文章：$text")
println(response.text)

// 串流
model.generateContentStream("撰寫回覆：$email").collect { chunk ->
    responseText += chunk.text ?: ""
}

這比對 OpenAI 的原始 REST 呼叫更乾淨。SDK 處理序列化、錯誤處理和串流。

對於 iOS，也有透過 Swift Package Manager 提供的 Swift SDK，遵循相同的模式。

規模化成本

即使在最便宜的每 token 費率下，隨使用者線性擴展仍然會累積。

使用相同的基準（每天 3 次互動、每次 1,000 個 token、Gemini Flash 的 $0.10/$0.40）：

MAU	天真月費	真實費用（3 倍乘數）
1,000	$22.50	$67.50
5,000	$112.50	$337.50
10,000	$225.00	$675.00
50,000	$1,125.00	$3,375.00
100,000	$2,250.00	$6,750.00

在 100K MAU 時，使用真實成本乘數，Gemini Flash 每月費用 $6,750。比 GPT-4o-mini（$10,125）便宜，但仍然是隨每位使用者成長的重大支出。

Gemini Nano：Google 的裝置端選項

Google 有自己的裝置端模型：Gemini Nano。它透過 Android AICore 直接在手機上執行。零 API 費用，零延遲。

但限制很大：

裝置限制： 僅在 Pixel 8/9 系列和 Samsung Galaxy S24/S25 系列上可用。這只是 Android 市場的一小部分。

無自訂模型： 你不能微調 Gemini Nano。你不能使用自己的模型。你只能使用 Google 預先配置的功能。

有限任務： 摘要、智慧回覆和少數其他預定義功能。沒有帶有自訂行為的開放式文字生成。

API 限制： 存取是透過 AICore API，與 Gemini Cloud API 不同。不同的整合方式，不同的功能。

對於需要跨所有 Android 裝置、帶有自訂模型行為的裝置端 AI 的開發者，Gemini Nano 不是解決方案。

Gemini API vs Gemini Nano vs GGUF 裝置端

因素	Gemini API (Flash)	Gemini Nano	GGUF + llama.cpp
每次推論費用	$0.0001-$0.001	$0	$0
裝置覆蓋率	所有（連網）	Pixel 8+, Galaxy S24+	任何 4GB+ 裝置
自訂模型	否	否	是（任何 GGUF）
微調	否	否	完整 LoRA/QLoRA
離線	否	是	是
支援的任務	所有（雲端模型）	有限預定義	所有文字生成
模型控制	無	無	完全
領域準確率	良好（提示）	不適用	優秀（微調）

何時使用哪一個

Gemini API 是成本敏感行動應用程式的最佳雲端 API 選擇。如果你需要雲端 API 做原型開發或低流量功能，Gemini Flash 是最經濟的選項。原生 Android SDK 讓整合比競爭供應商更順暢。

Gemini Nano 在你的應用程式專門針對 Pixel 和 Samsung 旗艦機，且只需要摘要或智慧回覆時有用。對大多數開發者來說，裝置限制使它不適合作為主要 AI 策略。

GGUF + llama.cpp 是當你需要跨所有裝置的自訂 AI 行為、離線支援、隱私和零每次推論費用時的正確選擇。使用像 Ertas 這樣的平台在你的領域資料上微調模型，匯出為 GGUF，在任何有足夠 RAM 的裝置上執行。

實際路徑

從 Gemini Flash 開始，取得最便宜的雲端 AI 驗證。在開發和早期測試期間使用免費方案。從第一天就監控你的 token 使用量和每位使用者的成本。

當你超過 5,000 MAU，或你每月的 Gemini 帳單超過一次性微調費用時，就是評估裝置端的時候了。你的 Gemini API 日誌包含微調所需的訓練資料。遷移路徑很直接：擷取訓練資料、使用 LoRA 微調、匯出 GGUF、整合 llama.cpp，並對你的 Gemini 基準線進行 A/B 測試。