Back to blog
    如何为移动应用添加AI:开发者决策指南
    mobile AIapp developmentcloud APIon-device AIiOSAndroidsegment:mobile-builder

    如何为移动应用添加AI:开发者决策指南

    涵盖为iOS和Android应用添加AI功能的所有方法的综合指南。云API、端侧模型和混合架构的真实成本与性能数据对比。

    EErtas Team·

    你想为移动应用添加AI功能。也许是应用内助手、智能搜索、内容起草或分类。问题不在于是否要添加AI,而在于如何添加。

    有三种根本不同的方法,每种都有不同的成本结构、性能特征和权衡取舍。选错了要么浪费钱,要么浪费好几个月的返工时间。本指南帮你在写任何代码之前选对方向。

    三种方法

    1. 云API(OpenAI、Anthropic、Google)

    为应用添加AI最快的方式。发送HTTP请求到云端端点,获取响应。OpenAI的GPT-4o、Anthropic的Claude和Google的Gemini是最受欢迎的选择。

    工作原理: 你的应用将用户输入发送到云服务器。服务器在大模型上运行推理。响应通过网络返回。你的应用展示结果。

    成本: 按令牌计费。每个请求、每个用户、每次交互都要花钱。GPT-4o每百万输入令牌收费$2.50,每百万输出令牌收费$10.00。GPT-4o-mini更便宜,$0.15/$0.60。Gemini Flash最实惠,$0.10/$0.40。

    以10,000月活用户、典型AI助手使用模式(每天3次交互,每次1,000个令牌)计算,月成本从$67(Gemini Flash)到$5,625(GPT-4o)不等。这些成本随每个新增用户线性增长。

    适用场景: 原型验证。需要前沿模型推理能力的任务。极低用量应用(少于1,000 MAU)。需要实时访问实时数据的功能。

    不适用场景: AI是核心功能且频繁使用的应用。隐私敏感的使用场景。需要离线功能的应用。对成本敏感的扩展场景。

    2. 端侧模型(微调 + llama.cpp)

    直接在用户手机上运行AI推理。存储在设备上的微调模型在本地处理请求。不需要网络。没有按请求的费用。

    工作原理: 你使用LoRA适配器对一个小型语言模型(10-30亿参数)进行微调。导出为GGUF文件。随应用发布或安装后下载。模型通过llama.cpp在设备上运行,使用手机的CPU和GPU。

    成本: 一次性微调成本$5-50。通过CDN分发模型(大约$0.08/GB,分摊到各用户)。之后推理永久免费。无论有多少用户或使用频率多高,每次请求零成本。

    以10,000 MAU计算:推理$0/月(云API则是$67-$5,625)。

    适用场景: 高频AI功能(聊天、搜索、分类)。隐私敏感数据(健康、金融、个人消息)。需要离线支持的应用。领域特定任务,微调的3B模型优于通用GPT-4提示(按已发布基准测试,领域任务准确率94% vs 71%)。

    不适用场景: 需要前沿模型对新输入进行推理的任务。需要访问实时外部数据的功能。内存少于4GB的超低端设备。

    3. 混合架构

    根据复杂度路由请求。简单的高频任务交给端侧模型。复杂的低频任务交给云API。

    工作原理: 你的应用评估每个请求并将其路由到本地模型或云端端点。路由可以基于规则(任务类型)或基于置信度(如果本地模型的置信度低于阈值,则升级到云端)。

    成本: 80-90%的请求走端侧推理,零边际成本。只有真正需要前沿能力的10-20%的请求才产生云API费用。

    适用场景: 包含简单和复杂AI任务混合的应用。从云端向端侧的渐进式迁移。在端侧部署初期需要云端作为后备。

    决策矩阵

    因素云API端侧混合
    搭建时间数小时数天数天
    1K MAU成本$7-$563/月~$0/月$1-$56/月
    100K MAU成本$675-$56,250/月~$0/月$68-$5,625/月
    延迟(首令牌时间)500ms-3,000ms50-200ms取决于路由
    离线支持部分
    隐私数据发送给第三方数据留在设备上部分
    模型质量(通用任务)最高良好(微调后)两者兼优
    模型质量(领域任务)良好最高(微调后)最高
    供应商依赖
    模型更新速度即时(API侧)OTA推送(数小时)混合

    手机上实际能运行什么?

    现代智能手机的能力超出大多数开发者的预期。iPhone 15(A17,8GB RAM)以每秒20-30个令牌运行30亿参数模型。Pixel 8(Tensor G3,12GB)达到类似性能。这对于实时聊天、即时分类和响应式内容生成来说已经足够快了。

    关键制约因素是内存。一个3B模型量化到4位(Q4_K_M)大约需要1.7GB内存。过去两年的大多数旗舰手机有6-12GB。扣除操作系统和其他应用后,仍有足够的空间运行这个规模的模型。

    参考数据,以下是Q4量化下的实际模型大小:

    模型大小GGUF文件大小(Q4)所需内存设备级别
    10亿参数~600MB~800MB中端(2023+)
    30亿参数~1.7GB~2.2GB旗舰(2022+)
    70亿参数~4.0GB~5.0GB仅高端旗舰

    2026年移动部署的实用甜蜜区间是10-30亿参数。

    成本曲线

    云API与端侧模型的经济学遵循可预测的模式。在极低用量下(少于100 MAU),云API更便宜,因为微调成本($5-50)超过月度API账单。但交叉点来得很快。

    以GPT-4o-mini $0.15/$0.60每百万令牌和典型移动助手使用模式(每天3次交互,每次1,000个令牌)计算:

    • 100 MAU: 云成本$3.37/月。端侧成本$0。微调回本期2-15个月。
    • 1,000 MAU: 云成本$33.75/月。第一个月即回本。
    • 10,000 MAU: 云成本$337.50/月。微调在第一个计费周期就已回本。

    使用GPT-4o时,回本更快,因为月成本高出15-25倍。

    关键洞察:云API是随每个用户增长的可变成本。端侧推理是不增长的固定成本。这从根本上改变了你的单位经济模型。

    行业趋势

    趋势很明确。Apple在CoreML和Neural Engine优化上大力投入端侧ML。Google专门为端侧推理推出了Gemini Nano。Meta发布了带有10亿和30亿参数移动专用模型的Llama 3.2。高通、联发科和三星正在芯片组中内置专用NPU。

    工具生态系统已经成熟。llama.cpp在iOS和Android上提供生产级推理。GGUF已成为便携式模型部署的标准格式。使用LoRA进行微调对没有ML背景的开发者也是可行的。

    剩余的障碍是微调步骤本身。准备训练数据、运行微调任务和导出GGUF仍然需要多个工具和一些ML知识。像Ertas这样的平台正在弥合这一差距,提供可视化界面处理完整流水线:上传数据,在云GPU上微调,导出GGUF,在应用中发布。无需代码,无需ML专业知识,大约2分钟即可设置。

    从哪里开始

    如果你从零开始,先用云API。它以最小投入验证功能和用户需求。构建功能,发布它,确认用户参与其中。

    一旦验证了功能并有了真实的使用数据,你也有了真实的训练数据。你的API日志就是你的微调数据集。在以下情况下迁移到端侧:API成本变得可观、用户需要离线访问,或隐私需求要求如此。

    迁移路径是明确的:从API日志提取训练数据,微调小模型,集成llama.cpp,对比云基线进行A/B测试,然后迁移。许多开发者反馈完整迁移只需2-4周。

    正确的方法取决于你现在所处的阶段。但如果你正在构建一个用户每天都会使用AI功能的移动应用,数学结论指向核心工作负载的端侧推理。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading