端侧 AI 模型大小指南: 移动端 1B vs 3B vs 7B

为你的移动应用选择合适的模型大小是端侧 AI 中最关键的技术决策。太小,模型无法处理你的任务。太大,运行缓慢、占用过多内存,或排除太多设备。

正确答案取决于你的任务、目标设备以及你是否进行微调。

大小谱系

参数量	GGUF Q4 大小	所需 RAM	设备要求
1B	~600MB	~800MB	4GB+ RAM(任何现代手机)
3B	~1.7GB	~2.2GB	6GB+ RAM(2023+ 中端)
7B	~4GB	~5GB	8GB+ RAM(仅旗舰)

这些大小假设 Q4_K_M 量化,它在大小缩减和质量保持之间提供了最佳平衡。更高的量化级别(Q5、Q8)增加 25-100% 的大小,但质量提升微乎其微。

各规格能做什么

1B 模型

优势:

文本分类(情感、类别、意图)
自动补全和文本预测
智能建议(回复建议、操作建议)
命名实体识别
简短回答的简单问答
关键词提取和标注

局限:

推理能力有限
短且有时重复的生成
对细微指令理解困难
无法保持连贯的长文本输出

最适合: 将输入转化为结构化输出的功能。分类、标注、建议和短文本生成。

3B 模型

优势:

多轮连贯的对话聊天
文章和文档摘要
内容起草(邮件、消息、笔记)
常见语言对之间的翻译
复杂指令遵循
结构化输出生成(JSON、格式化文本)

局限:

比 1B 慢(大约一半的速度)
无法匹配前沿模型的推理能力(GPT-4、Claude Sonnet)
没有微调的情况下,可能在高度技术性或专业内容上表现不佳
内存使用是 1B 的 2-3 倍

最适合: 生成人类可读文本的功能。聊天、摘要、内容创作和复杂分类。

7B 模型

优势:

更强的推理和推断能力
在模糊或开放式任务上表现更好
更稳健的指令遵循
能处理更长、更连贯的输出

局限:

仅在 8GB+ RAM 的旗舰设备上运行
生成缓慢(大多数设备上 5-12 tok/s)
排除 50-70% 的设备市场
内存压力导致应用不稳定

最适合: 对移动端来说很少是正确选择。设备覆盖和性能折衷太严重。如果你需要 7B 的质量,请在你的领域数据上微调 3B 模型。

质量对比

通用基准(基础模型,未微调)

任务	1B	3B	7B
文本分类准确率	78-85%	85-90%	88-93%
摘要质量(人工评估)	5.5/10	7/10	8/10
指令遵循率	70%	85%	90%
对话连贯性(5 轮)	差	好	很好
JSON 输出可靠性	60%	82%	90%

在领域数据上微调后

任务	1B 微调后	3B 微调后	云 API(提示词引导)
领域分类准确率	90-94%	93-96%	71-80%
领域特定问答	82-88%	88-94%	75-82%
结构化输出可靠性	85-90%	92-96%	80-88%

关键洞察: 微调后的 1B 模型在领域特定任务上优于经提示词引导的云 API。 微调后的 3B 模型显著超越它。微调在保持模型足够小以适合移动端的同时缩小了质量差距。

微调因素

微调改变了大小选择的计算方式:

不微调时, 你需要更大的模型来处理你的任务,因为模型依赖通用知识和提示词指令。你用更多参数来弥补领域知识的缺乏。

微调后, 你将领域知识烘焙到模型权重中。模型不需要从提示词中理解你的领域,它已经知道了。这意味着较小的微调模型在你的特定任务上通常能匹配或超越更大的通用模型。

实际影响:

需要聊天?从 3B 微调开始。你可能会发现它在你的领域上匹配云 API 的质量。
需要分类?从 1B 微调开始。它很可能超过你的云 API 准确率。
认为你需要 7B?先微调 3B。测试它。你很可能不需要 7B。

按模型大小的设备覆盖率

模型大小	iPhone 覆盖率	Android 覆盖率	总可触达量
1B	iPhone 12+(95%+ 活跃)	4GB+(85%+ 活跃)	约 90% 的智能手机
3B	iPhone 14+(70%+ 活跃)	6GB+(60%+ 活跃)	约 65% 的智能手机
7B	iPhone 15 Pro+(15% 活跃)	8GB+ 旗舰(20% 活跃)	约 18% 的智能手机

选择 1B 而非 3B 大约可使你的可触达设备市场翻倍。选择 3B 而非 7B 可使其增加三倍。

决策框架

第 1 步: 定义你的任务

模型在你的应用中要做什么?

任务类型	最低规格	推荐规格
分类 / 标注	1B	1B 微调
自动补全 / 建议	1B	1B 微调
短问答(1-2 句)	1B	1B 微调
聊天(多轮)	3B	3B 微调
摘要	3B	3B 微调
内容起草	3B	3B 微调
翻译	1-3B	3B 微调
复杂推理	3B+	3B 微调(先测试)

第 2 步: 了解你的受众

你的用户有什么设备?检查你的分析数据中的设备 RAM 分布。如果 80%+ 的用户有 6GB+ RAM, 3B 是安全的。如果你面向发展中市场或对价格敏感的用户, 1B 是更稳妥的选择。

第 3 步: 微调并测试

不要猜测。使用 Ertas 等平台在你的领域数据上同时微调 1B 和 3B。对照你的质量基准测试两者。选择满足你质量标准的最小模型。

微调投入很小(每次训练运行 $5-50),而测试给你的是实证而非假设。

第 4 步: 两个都提供

理想的架构在运行时检测可用 RAM 并加载合适的模型:

4-6GB 设备: 1B 微调
6GB+ 设备: 3B 微调
回退: 4GB 以下设备使用云 API(或不提供 AI 功能)

这同时最大化了质量和设备覆盖率。

总结

	1B	3B	7B
文件大小(Q4)	~600MB	~1.7GB	~4GB
速度(旗舰)	35-50 tok/s	18-30 tok/s	6-12 tok/s
设备覆盖率	~90%	~65%	~18%
最佳用例	分类、建议	聊天、生成	移动端很少适用
微调后质量	超越提示词引导的云 API	显著超越	如果 3B 已微调则不需要

从能处理你任务的最小模型开始。微调它。测试它。只有在质量确实不足时才选择更大的。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

端侧 AI 模型大小指南: 移动端 1B vs 3B vs 7B

大小谱系

各规格能做什么

1B 模型

3B 模型

7B 模型

质量对比

通用基准(基础模型,未微调)

在领域数据上微调后

微调因素

按模型大小的设备覆盖率

决策框架

第 1 步: 定义你的任务

第 2 步: 了解你的受众

第 3 步: 微调并测试

第 4 步: 两个都提供

总结

Ship AI that runs on your users' devices.

Ship AI that runs on your users' devices.

Keep reading

Gemma 3移动端: 微调与端侧部署

如何为移动应用添加AI：开发者决策指南

Llama 3.2移动应用: 微调与端侧部署