
Google Gemini API移动端指南:定价、限制与何时转向端侧
Google的Gemini API提供激进的定价和原生Android集成。以下是规模化后定价的真实情况、免费层的边界,以及何时端侧模型更有意义。
Google的Gemini 是最便宜的主流AI API。Gemini 2.0 Flash每百万输入令牌收费$0.10,每百万输出令牌收费$0.40。这比GPT-4o-mini便宜33%。还有一个额度慷慨的免费层。
对于Android开发者,Google提供了一个原生SDK,可以直接与你的Kotlin代码集成。不需要处理REST。
这听起来很适合移动应用。以下是现实更加微妙的部分。
定价优势
| 模型 | 输入(每百万令牌) | 输出(每百万令牌) |
|---|---|---|
| Gemini 2.0 Flash | $0.10 | $0.40 |
| Gemini 2.0 Flash-Lite | $0.075 | $0.30 |
| Gemini 1.5 Pro | $1.25 | $5.00 |
| GPT-4o-mini(对比) | $0.15 | $0.60 |
| Claude 3.5 Haiku(对比) | $0.80 | $4.00 |
Gemini Flash确实是主要供应商中按令牌推理最便宜的选择。如果能接受能力稍有降低,Flash-Lite更便宜。
免费层
Google通过Google AI Studio为Gemini API提供免费层:
- 速率限制: 每分钟15个请求
- 每日限制: 每天1,500个请求
- 令牌限制: 每分钟100万个令牌
- 无需信用卡
这对于开发和测试来说很慷慨。甚至可以支持小流量的生产应用。每天1,500个请求,大约可以服务50个MAU(每用户每天30个请求)。
但有个问题:免费 层没有SLA,没有保证的正常运行时间,Google可以随时更改条款。这不是一个生产环境的基础。
原生Android SDK
Google为Android提供了Google AI Client SDK,这是所有AI供应商中最干净的移动端集成:
val model = GenerativeModel(
modelName = "gemini-2.0-flash",
apiKey = BuildConfig.GEMINI_API_KEY
)
// 简单生成
val response = model.generateContent("Summarize this article: $text")
println(response.text)
// 流式传输
model.generateContentStream("Draft a reply to: $email").collect { chunk ->
responseText += chunk.text ?: ""
}
这比直接向OpenAI发REST调用更简洁。SDK处理了序列化、错误处理和流式传输。
对于iOS,有一个通过Swift Package Manager提供的Swift SDK,遵循相同的模式。
规模化成本
即使是最便宜的按令牌价格,随用户线性增长仍然会累积起来。
使用相同基线(每天3次交互,每次1,000个令牌,Gemini Flash $0.10/$0.40):
| MAU | 粗略月成本 | 真实成本(3倍乘数) |
|---|---|---|
| 1,000 | $22.50 | $67.50 |
| 5,000 | $112.50 | $337.50 |
| 10,000 | $225.00 | $675.00 |
| 50,000 | $1,125.00 | $3,375.00 |
| 100,000 | $2,250.00 | $6,750.00 |
100K MAU时,Gemini Flash加上真实成本乘数为$6,750/月。这比GPT-4o-mini($10,125)便宜,但仍然是一笔随每个用户增长的实质性支出。
Gemini Nano:Google的端侧选项
Google有自己的端侧模型:Gemini Nano。它通过Android AICore直接在手机上运行。零API成本,零延迟。
但限制很大:
设备限制: 仅在Pixel 8/9系列和Samsung Galaxy S24/S25系列上可用。这只是Android市场的一小部分。
不支持自定义模型: 你不能微 调Gemini Nano。不能使用自己的模型。你只能获得Google预配置的能力。
有限的任务: 摘要、智能回复和少数其他预定义能力。没有自定义行为的开放式文本生成。
API限制: 通过AICore API访问,与Gemini Cloud API不同。不同的集成方式,不同的能力。
对于需要跨所有Android设备使用自定义模型行为的端侧AI的开发者,Gemini Nano不是解决方案。
Gemini API vs Gemini Nano vs GGUF端侧
| 因素 | Gemini API (Flash) | Gemini Nano | GGUF + llama.cpp |
|---|---|---|---|
| 每次推理成本 | $0.0001-$0.001 | $0 | $0 |
| 设备覆盖 | 全部(需联网) | Pixel 8+, Galaxy S24+ | 任何4GB+设备 |
| 自定义模型 | 否 | 否 | 是(任何GGUF) |
| 微调 | 否 | 否 | 完整LoRA/QLoRA |
| 离线 | 否 | 是 | 是 |
| 支持的任务 | 全部(云模型) | 有限的预定义 | 全部文本生成 |
| 模型控制 | 无 | 无 | 完全 |
| 领域准确率 | 良好(提示方 式) | 不适用 | 优秀(微调方式) |
何时使用每种方案
Gemini API 是成本敏感型移动应用的最佳云API选择。如果你需要云API进行原型验证或低用量功能,Gemini Flash是最经济的选择。原生Android SDK使集成比竞争供应商更顺畅。
Gemini Nano 适用于应用专门面向Pixel和Samsung旗舰机,且只需要摘要或智能回复的情况。对于大多数开发者来说,设备限制使其不适合作为主要AI策略。
GGUF + llama.cpp 适用于需要跨所有设备的自定义AI行为、离线支持、隐私和零推理成本的情况。使用像Ertas这样的平台在你的领域数据上微调模型,导出为GGUF,在任何有足够内存的设备上运行。
实际路径
从Gemini Flash开始,获得最便宜的云AI验证。在开发和早期测试阶段使用免费层。从第一天起监控你的令牌使用量和每用户成本。
当你超过5,000 MAU或你的Gemini月度账单超过一次性微调成本时,就该评估端侧方案了。你的Gemini API日志包含了微调所需的训练数据。迁移路径很清晰:提取训练数据,用LoRA微调,导出GGUF,集成llama.cpp,并对比Gemini基线进行A/B测试。
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.
Keep reading

移动应用中Claude API与OpenAI API的对比
Anthropic的Claude和OpenAI的GPT模型在移动应用集成方面的并排比较。定价、速率限制、能力,以及两者都不是正确答案的情况。

移动应用中的OpenAI API:快速入门与没人提到的成本
将OpenAI API集成到iOS和Android应用的实用指南,附带1K到100K用户规模下大多数教程跳过的真实成本预测。

当应用获得用户时,你的AI API账单将增长10倍
大多数AI教程跳过的成本计算。你的API账单随每个用户线性增长,真实的乘数效应比定价页面显示的更糟。以下是1K、10K和100K MAU时会发生什么。