
Google Gemini API移动端指南:定价、限制与何时转向端侧
Google的Gemini API提供激进的定价和原生Android集成。以下是规模化后定价的真实情况、免费层的边界,以及何时端侧模型更有意义。
Google的Gemini是最便宜的主流AI API。Gemini 2.0 Flash每百万输入令牌收费$0.10,每百万输出令牌收费$0.40。这比GPT-4o-mini便宜33%。还有一个额度慷慨的免费层。
对于Android开发者,Google提供了一个原生SDK,可以直接与你的Kotlin代码集成。不需要处理REST。
这听起来很适合移动应用。以下是现实更加微妙的部分。
定价优势
| 模型 | 输入(每百万令牌) | 输出(每百万令牌) |
|---|---|---|
| Gemini 2.0 Flash | $0.10 | $0.40 |
| Gemini 2.0 Flash-Lite | $0.075 | $0.30 |
| Gemini 1.5 Pro | $1.25 | $5.00 |
| GPT-4o-mini(对比) | $0.15 | $0.60 |
| Claude 3.5 Haiku(对比) | $0.80 | $4.00 |
Gemini Flash确实是主要供应商中按令牌推理最便宜的选择。如果能接受能力稍有降低,Flash-Lite更便宜。
免费层
Google通过Google AI Studio为Gemini API提供免费层:
- 速率限制: 每分钟15个请求
- 每日限制: 每天1,500个请求
- 令牌限制: 每分钟100万个令牌
- 无需信用卡
这对于开发和测试来说很慷慨。甚至可以支持小流量的生产应用。每天1,500个请求,大约可以服务50个MAU(每用户每天30个请求)。
但有个问题:免费层没有SLA,没有保证的正常运行时间,Google可以随时更改条款。这不是一个生产环境的基础。
原生Android SDK
Google为Android提供了Google AI Client SDK,这是所有AI供应商中最干净的移动端集成:
val model = GenerativeModel(
modelName = "gemini-2.0-flash",
apiKey = BuildConfig.GEMINI_API_KEY
)
// 简单生成
val response = model.generateContent("Summarize this article: $text")
println(response.text)
// 流式传输
model.generateContentStream("Draft a reply to: $email").collect { chunk ->
responseText += chunk.text ?: ""
}
这比直接向OpenAI发REST调用更简洁。SDK处理了序列化、错误处理和流式传输。
对于iOS,有一个通过Swift Package Manager提供的Swift SDK,遵循相同的模式。
规模化成本
即使是最便宜的按令牌价格,随用户线性增长仍然会累积起来。
使用相同基线(每天3次交互,每次1,000个令牌,Gemini Flash $0.10/$0.40):
| MAU | 粗略月成本 | 真实成本(3倍乘数) |
|---|---|---|
| 1,000 | $22.50 | $67.50 |
| 5,000 | $112.50 | $337.50 |
| 10,000 | $225.00 | $675.00 |
| 50,000 | $1,125.00 | $3,375.00 |
| 100,000 | $2,250.00 | $6,750.00 |
100K MAU时,Gemini Flash加上真实成本乘数为$6,750/月。这比GPT-4o-mini($10,125)便宜,但仍然是一笔随每个用户增长的实质性支出。
Gemini Nano:Google的端侧选项
Google有自己的端侧模型:Gemini Nano。它通过Android AICore直接在手机上运行。零API成本,零延迟。
但限制很大:
设备限制: 仅在Pixel 8/9系列和Samsung Galaxy S24/S25系列上可用。这只是Android市场的一小部分。
不支持自定义模型: 你不能微调Gemini Nano。不能使用自己的模型。你只能获得Google预配置的能力。
有限的任务: 摘要、智能回复和少数其他预定义能力。没有自定义行为的开放式文本生成。
API限制: 通过AICore API访问,与Gemini Cloud API不同。不同的集成方式, 不同的能力。
对于需要跨所有Android设备使用自定义模型行为的端侧AI的开发者,Gemini Nano不是解决方案。
Gemini API vs Gemini Nano vs GGUF端侧
| 因素 | Gemini API (Flash) | Gemini Nano | GGUF + llama.cpp |
|---|---|---|---|
| 每次推理成本 | $0.0001-$0.001 | $0 | $0 |
| 设备覆盖 | 全部(需联网) | Pixel 8+, Galaxy S24+ | 任何4GB+设备 |
| 自定义模型 | 否 | 否 | 是(任何GGUF) |
| 微调 | 否 | 否 | 完整LoRA/QLoRA |
| 离线 | 否 | 是 | 是 |
| 支持的任务 | 全部(云模型) | 有限的预定义 | 全部文本生成 |
| 模型控制 | 无 | 无 | 完全 |
| 领域准确率 | 良好(提示方式) | 不适用 | 优秀(微调方式) |
何时使用 每种方案
Gemini API 是成本敏感型移动应用的最佳云API选择。如果你需要云API进行原型验证或低用量功能,Gemini Flash是最经济的选择。原生Android SDK使集成比竞争供应商更顺畅。
Gemini Nano 适用于应用专门面向Pixel和Samsung旗舰机,且只需要摘要或智能回复的情况。对于大多数开发者来说,设备限制使其不适合作为主要AI策略。
GGUF + llama.cpp 适用于需要跨所有设备的自定义AI行为、离线支持、隐私和零推理成本的情况。使用像Ertas这样的平台在你的领域数据上微调模型,导出为GGUF,在任何有足够内存的设备上运行。
实际路径
从Gemini Flash开始,获得最便宜的云AI验证。在开发和早期测试阶段使用免费层。从第一天起监控你的令牌使用量和每用户成本。
当你超过5,000 MAU或你的Gemini月度账单超过一次性微调成本时,就该评估端侧方案了。你的Gemini API日志包含了微调所需的训练数据。迁移路径很清晰:提取训练数据,用LoRA微调,导出GGUF,集成llama.cpp,并对比Gemini基线进行A/B测试。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

OpenAI API for Mobile Apps: Quick Start and the Costs Nobody Mentions
A practical guide to integrating OpenAI's API into iOS and Android apps, with honest cost projections at 1K to 100K users that most tutorials skip.

Claude API vs OpenAI API for Mobile Apps
A side-by-side comparison of Anthropic's Claude and OpenAI's GPT models for mobile app integration. Pricing, rate limits, capabilities, and when neither is the right answer.

Your AI API Bill Will 10x When Your App Gets Users
The cost math most AI tutorials skip. Your API bill scales linearly with every user, and the real multipliers are worse than the pricing page suggests. Here's what happens at 1K, 10K, and 100K MAU.