如何为移动应用添加AI：开发者决策指南

你想为移动应用添加AI功能。也许是应用内助手、智能搜索、内容起草或分类。问题不在于是否要添加AI，而在于如何添加。

有三种根本不同的方法，每种都有不同的成本结构、性能特征和权衡取舍。选错了要么浪费钱，要么浪费好几个月的返工时间。本指南帮你在写任何代码之前选对方向。

三种方法

1. 云API（OpenAI、Anthropic、Google）

为应用添加AI最快的方式。发送HTTP请求到云端端点，获取响应。OpenAI的GPT-4o、Anthropic的Claude和Google的Gemini是最受欢迎的选择。

工作原理： 你的应用将用户输入发送到云服务器。服务器在大模型上运行推理。响应通过网络返回。你的应用展示结果。

成本： 按令牌计费。每个请求、每个用户、每次交互都要花钱。GPT-4o每百万输入令牌收费$2.50，每百万输出令牌收费$10.00。GPT-4o-mini更便宜，$0.15/$0.60。Gemini Flash最实惠，$0.10/$0.40。

以10,000月活用户、典型AI助手使用模式（每天3次交互，每次1,000个令牌）计算，月成本从$67（Gemini Flash）到$5,625（GPT-4o）不等。这些成本随每个新增用户线性增长。

适用场景： 原型验证。需要前沿模型推理能力的任务。极低用量应用（少于1,000 MAU）。需要实时访问实时数据的功能。

不适用场景： AI是核心功能且频繁使用的应用。隐私敏感的使用场景。需要离线功能的应用。对成本敏感的扩展场景。

2. 端侧模型（微调 + llama.cpp）

直接在用户手机上运行AI推理。存储在设备上的微调模型在本地处理请求。不需要网络。没有按请求的费用。

工作原理： 你使用LoRA适配器对一个小型语言模型（10-30亿参数）进行微调。导出为GGUF文件。随应用发布或安装后下载。模型通过llama.cpp在设备上运行，使用手机的CPU和GPU。

成本： 一次性微调成本$5-50。通过CDN分发模型（大约$0.08/GB，分摊到各用户）。之后推理永久免费。无论有多少用户或使用频率多高，每次请求零成本。

以10,000 MAU计算：推理$0/月（云API则是$67-$5,625）。

适用场景： 高频AI功能（聊天、搜索、分类）。隐私敏感数据（健康、金融、个人消息）。需要离线支持的应用。领域特定任务，微调的3B模型优于通用GPT-4提示（按已发布基准测试，领域任务准确率94% vs 71%）。

不适用场景： 需要前沿模型对新输入进行推理的任务。需要访问实时外部数据的功能。内存少于4GB的超低端设备。

3. 混合架构

根据复杂度路由请求。简单的高频任务交给端侧模型。复杂的低频任务交给云API。

工作原理： 你的应用评估每个请求并将其路由到本地模型或云端端点。路由可以基于规则（任务类型）或基于置信度（如果本地模型的置信度低于阈值，则升级到云端）。

成本： 80-90%的请求走端侧推理，零边际成本。只有真正需要前沿能力的10-20%的请求才产生云API费用。

适用场景： 包含简单和复杂AI任务混合的应用。从云端向端侧的渐进式迁移。在端侧部署初期需要云端作为后备。

决策矩阵

因素	云API	端侧	混合
搭建时间	数小时	数天	数天
1K MAU成本	$7-$563/月	~$0/月	$1-$56/月
100K MAU成本	$675-$56,250/月	~$0/月	$68-$5,625/月
延迟（首令牌时间）	500ms-3,000ms	50-200ms	取决于路由
离线支持	否	是	部分
隐私	数据发送给第三方	数据留在设备上	部分
模型质量（通用任务）	最高	良好（微调后）	两者兼优
模型质量（领域任务）	良好	最高（微调后）	最高
供应商依赖	高	无	低
模型更新速度	即时（API侧）	OTA推送（数小时）	混合

手机上实际能运行什么?

现代智能手机的能力超出大多数开发者的预期。iPhone 15（A17，8GB RAM）以每秒20-30个令牌运行30亿参数模型。Pixel 8（Tensor G3，12GB）达到类似性能。这对于实时聊天、即时分类和响应式内容生成来说已经足够快了。

关键制约因素是内存。一个3B模型量化到4位（Q4_K_M）大约需要1.7GB内存。过去两年的大多数旗舰手机有6-12GB。扣除操作系统和其他应用后，仍有足够的空间运行这个规模的模型。

参考数据，以下是Q4量化下的实际模型大小：

模型大小	GGUF文件大小（Q4）	所需内存	设备级别
10亿参数	~600MB	~800MB	中端（2023+）
30亿参数	~1.7GB	~2.2GB	旗舰（2022+）
70亿参数	~4.0GB	~5.0GB	仅高端旗舰

2026年移动部署的实用甜蜜区间是10-30亿参数。

成本曲线

云API与端侧模型的经济学遵循可预测的模式。在极低用量下（少于100 MAU），云API更便宜，因为微调成本（$5-50）超过月度API账单。但交叉点来得很快。

以GPT-4o-mini $0.15/$0.60每百万令牌和典型移动助手使用模式（每天3次交互，每次1,000个令牌）计算：

100 MAU： 云成本$3.37/月。端侧成本$0。微调回本期2-15个月。
1,000 MAU： 云成本$33.75/月。第一个月即回本。
10,000 MAU： 云成本$337.50/月。微调在第一个计费周期就已回本。

使用GPT-4o时，回本更快，因为月成本高出15-25倍。

关键洞察：云API是随每个用户增长的可变成本。端侧推理是不增长的固定成本。这从根本上改变了你的单位经济模型。

行业趋势

趋势很明确。Apple在CoreML和Neural Engine优化上大力投入端侧ML。Google专门为端侧推理推出了Gemini Nano。Meta发布了带有10亿和30亿参数移动专用模型的Llama 3.2。高通、联发科和三星正在芯片组中内置专用NPU。

工具生态系统已经成熟。llama.cpp在iOS和Android上提供生产级推理。GGUF已成为便携式模型部署的标准格式。使用LoRA进行微调对没有ML背景的开发者也是可行的。

剩余的障碍是微调步骤本身。准备训练数据、运行微调任务和导出GGUF仍然需要多个工具和一些ML知识。像Ertas这样的平台正在弥合这一差距，提供可视化界面处理完整流水线：上传数据，在云GPU上微调，导出GGUF，在应用中发布。无需代码，无需ML专业知识，大约2分钟即可设置。

从哪里开始

如果你从零开始，先用云API。它以最小投入验证功能和用户需求。构建功能，发布它，确认用户参与其中。

一旦验证了功能并有了真实的使用数据，你也有了真实的训练数据。你的API日志就是你的微调数据集。在以下情况下迁移到端侧：API成本变得可观、用户需要离线访问，或隐私需求要求如此。

迁移路径是明确的：从API日志提取训练数据，微调小模型，集成llama.cpp，对比云基线进行A/B测试，然后迁移。许多开发者反馈完整迁移只需2-4周。

正确的方法取决于你现在所处的阶段。但如果你正在构建一个用户每天都会使用AI功能的移动应用，数学结论指向核心工作负载的端侧推理。

如何为移动应用添加AI：开发者决策指南

三种方法

1. 云API（OpenAI、Anthropic、Google）

2. 端侧模型（微调 + llama.cpp）

3. 混合架构

决策矩阵

手机上实际能运行什么?

成本曲线

行业趋势

从哪里开始

Ship AI that runs on your users' devices.

Keep reading

Android应用中的AI：ML Kit、云API和端侧LLM对比

iOS应用中的AI：CoreML、云API和端侧LLM对比

从云端 API 迁移到端侧 AI：完整指南