Back to blog
    Google Gemini API移动端指南:定价、限制与何时转向端侧
    Google GeminiAPImobile developmentAndroidcost optimizationsegment:mobile-builder

    Google Gemini API移动端指南:定价、限制与何时转向端侧

    Google的Gemini API提供激进的定价和原生Android集成。以下是规模化后定价的真实情况、免费层的边界,以及何时端侧模型更有意义。

    EErtas Team·

    Google的Gemini是最便宜的主流AI API。Gemini 2.0 Flash每百万输入令牌收费$0.10,每百万输出令牌收费$0.40。这比GPT-4o-mini便宜33%。还有一个额度慷慨的免费层。

    对于Android开发者,Google提供了一个原生SDK,可以直接与你的Kotlin代码集成。不需要处理REST。

    这听起来很适合移动应用。以下是现实更加微妙的部分。

    定价优势

    模型输入(每百万令牌)输出(每百万令牌)
    Gemini 2.0 Flash$0.10$0.40
    Gemini 2.0 Flash-Lite$0.075$0.30
    Gemini 1.5 Pro$1.25$5.00
    GPT-4o-mini(对比)$0.15$0.60
    Claude 3.5 Haiku(对比)$0.80$4.00

    Gemini Flash确实是主要供应商中按令牌推理最便宜的选择。如果能接受能力稍有降低,Flash-Lite更便宜。

    免费层

    Google通过Google AI Studio为Gemini API提供免费层:

    • 速率限制: 每分钟15个请求
    • 每日限制: 每天1,500个请求
    • 令牌限制: 每分钟100万个令牌
    • 无需信用卡

    这对于开发和测试来说很慷慨。甚至可以支持小流量的生产应用。每天1,500个请求,大约可以服务50个MAU(每用户每天30个请求)。

    但有个问题:免费层没有SLA,没有保证的正常运行时间,Google可以随时更改条款。这不是一个生产环境的基础。

    原生Android SDK

    Google为Android提供了Google AI Client SDK,这是所有AI供应商中最干净的移动端集成:

    val model = GenerativeModel(
        modelName = "gemini-2.0-flash",
        apiKey = BuildConfig.GEMINI_API_KEY
    )
    
    // 简单生成
    val response = model.generateContent("Summarize this article: $text")
    println(response.text)
    
    // 流式传输
    model.generateContentStream("Draft a reply to: $email").collect { chunk ->
        responseText += chunk.text ?: ""
    }

    这比直接向OpenAI发REST调用更简洁。SDK处理了序列化、错误处理和流式传输。

    对于iOS,有一个通过Swift Package Manager提供的Swift SDK,遵循相同的模式。

    规模化成本

    即使是最便宜的按令牌价格,随用户线性增长仍然会累积起来。

    使用相同基线(每天3次交互,每次1,000个令牌,Gemini Flash $0.10/$0.40):

    MAU粗略月成本真实成本(3倍乘数)
    1,000$22.50$67.50
    5,000$112.50$337.50
    10,000$225.00$675.00
    50,000$1,125.00$3,375.00
    100,000$2,250.00$6,750.00

    100K MAU时,Gemini Flash加上真实成本乘数为$6,750/月。这比GPT-4o-mini($10,125)便宜,但仍然是一笔随每个用户增长的实质性支出。

    Gemini Nano:Google的端侧选项

    Google有自己的端侧模型:Gemini Nano。它通过Android AICore直接在手机上运行。零API成本,零延迟。

    但限制很大:

    设备限制: 仅在Pixel 8/9系列和Samsung Galaxy S24/S25系列上可用。这只是Android市场的一小部分。

    不支持自定义模型: 你不能微调Gemini Nano。不能使用自己的模型。你只能获得Google预配置的能力。

    有限的任务: 摘要、智能回复和少数其他预定义能力。没有自定义行为的开放式文本生成。

    API限制: 通过AICore API访问,与Gemini Cloud API不同。不同的集成方式,不同的能力。

    对于需要跨所有Android设备使用自定义模型行为的端侧AI的开发者,Gemini Nano不是解决方案。

    Gemini API vs Gemini Nano vs GGUF端侧

    因素Gemini API (Flash)Gemini NanoGGUF + llama.cpp
    每次推理成本$0.0001-$0.001$0$0
    设备覆盖全部(需联网)Pixel 8+, Galaxy S24+任何4GB+设备
    自定义模型是(任何GGUF)
    微调完整LoRA/QLoRA
    离线
    支持的任务全部(云模型)有限的预定义全部文本生成
    模型控制完全
    领域准确率良好(提示方式)不适用优秀(微调方式)

    何时使用每种方案

    Gemini API 是成本敏感型移动应用的最佳云API选择。如果你需要云API进行原型验证或低用量功能,Gemini Flash是最经济的选择。原生Android SDK使集成比竞争供应商更顺畅。

    Gemini Nano 适用于应用专门面向Pixel和Samsung旗舰机,且只需要摘要或智能回复的情况。对于大多数开发者来说,设备限制使其不适合作为主要AI策略。

    GGUF + llama.cpp 适用于需要跨所有设备的自定义AI行为、离线支持、隐私和零推理成本的情况。使用像Ertas这样的平台在你的领域数据上微调模型,导出为GGUF,在任何有足够内存的设备上运行。

    实际路径

    从Gemini Flash开始,获得最便宜的云AI验证。在开发和早期测试阶段使用免费层。从第一天起监控你的令牌使用量和每用户成本。

    当你超过5,000 MAU或你的Gemini月度账单超过一次性微调成本时,就该评估端侧方案了。你的Gemini API日志包含了微调所需的训练数据。迁移路径很清晰:提取训练数据,用LoRA微调,导出GGUF,集成llama.cpp,并对比Gemini基线进行A/B测试。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading