
端侧 AI 模型大小指南: 移动端 1B vs 3B vs 7B
如何为你的移动应用选择合适的模型大小。能力详解、设备要求、质量基准,以及改变算法的微调因素。
为你的移动应用选择合适的模型大小是端侧 AI 中最关键的技术决策。太小,模型无法处理你的任务。太大,运行缓慢、占用过多内存,或排除太多设备。
正确答案取决于你的任务、目标设备以及你是否进行微调。
大小谱系
| 参数量 | GGUF Q4 大小 | 所需 RAM | 设备要求 |
|---|---|---|---|
| 1B | ~600MB | ~800MB | 4GB+ RAM(任何现代手机) |
| 3B | ~1.7GB | ~2.2GB | 6GB+ RAM(2023+ 中端) |
| 7B | ~4GB | ~5GB | 8GB+ RAM(仅旗舰) |
这些大小假设 Q4_K_M 量化,它在大小缩减和质量保持之间提供了最佳平衡。更高的量化级别(Q5、Q8)增加 25-100% 的大小,但质量提升微乎其微。
各规格能做什么
1B 模型
优势:
- 文本分类(情感、类别、意图)
- 自动补全和文本预测
- 智能建议(回复建议、操作建议)
- 命名实体识别
- 简短回答的简单问答
- 关键词提取和标注
局限:
- 推理能力有限
- 短且有时重复的生成
- 对细微指令理解困难
- 无法保持连贯的长文本输出
最适合: 将输入转化为结构化输出的功能。分类、标注、建议和短文本生成。
3B 模型
优势:
- 多轮连贯的对话聊天
- 文章和文档摘要
- 内容起草(邮件、消息、笔记)
- 常见语言对之间的翻译
- 复杂指令遵循
- 结构化输出生成(JSON、格式化文本)
局限:
- 比 1B 慢(大约一半的速度)
- 无法匹配前沿模型的推理能力(GPT-4、Claude Sonnet)
- 没有微调的情况下,可能在高度技术性或专业内容上表现不佳
- 内存使用是 1B 的 2-3 倍
最适合: 生成人类可读文本的功能。聊天、摘要、内容创作和复杂分类。
7B 模型
优势:
- 更强的推理和推断能力
- 在模糊或开放式任务上表现更好
- 更稳健的指令遵循
- 能处理更长、更连贯的输出
局限:
- 仅在 8GB+ RAM 的旗舰设备上运行
- 生成缓慢(大多数设备上 5-12 tok/s)
- 排除 50-70% 的设备市场
- 内存压力导致应用不稳定
最适合: 对移动端来说很少是正确选择。设备覆盖和性能折衷太严重。如果你需要 7B 的质量,请在你的领域数据上微调 3B 模型。
质量对比
通用基准(基础模型,未微调)
| 任务 | 1B | 3B | 7B |
|---|---|---|---|
| 文本分类准确率 | 78-85% | 85-90% | 88-93% |
| 摘要质量(人工评估) | 5.5/10 | 7/10 | 8/10 |
| 指令遵循率 | 70% | 85% | 90% |
| 对话连贯性(5 轮) | 差 | 好 | 很好 |
| JSON 输出可靠性 | 60% | 82% | 90% |
在领域数据上微调后
| 任务 | 1B 微调后 | 3B 微调后 | 云 API(提示词引导) |
|---|---|---|---|
| 领域分类准确率 | 90-94% | 93-96% | 71-80% |
| 领域特定问答 | 82-88% | 88-94% | 75-82% |
| 结构化输出可靠性 | 85-90% | 92-96% | 80-88% |
关键洞察: 微调后的 1B 模型在领域特定任务上优于经提示词引导的云 API。 微调后的 3B 模型显著超越它。微调在保持模型足够小以适合移动端的同时缩小了质量差距。
微调因素
微调改变了大小选择的计算方式:
不微调时, 你需要更大的模型来处理你的任务,因为模型依赖通用知识和提示词指令。你用更多参数来弥补领域知识的缺乏。
微调后, 你将领域知识烘焙到模型权重中。模型不需要从提示词中理解你的领域,它已经知道了。这意味着较小的微调模型在你的特定任务上通常能匹配或超越更大的通用模型。
实际影响:
- 需要聊天?从 3B 微调开始。你可能会发现它在你的领域上匹配云 API 的质量。
- 需要分类?从 1B 微调开始。它很可能超过你的云 API 准确率。
- 认为你需要 7B?先微调 3B。测试它。你很可能不需要 7B。
按模型大小的设备覆盖率
| 模型大小 | iPhone 覆盖率 | Android 覆盖率 | 总可触达量 |
|---|---|---|---|
| 1B | iPhone 12+(95%+ 活跃) | 4GB+(85%+ 活跃) | 约 90% 的智能手机 |
| 3B | iPhone 14+(70%+ 活跃) | 6GB+(60%+ 活跃) | 约 65% 的智能手机 |
| 7B | iPhone 15 Pro+(15% 活跃) | 8GB+ 旗舰(20% 活跃) | 约 18% 的智能手机 |
选择 1B 而非 3B 大约可使你的可触达设备市场翻倍。选择 3B 而非 7B 可使其增加三倍。
决策框架
第 1 步: 定义你的任务
模型在你的应用中要做什么?
| 任务类型 | 最低规格 | 推荐规格 |
|---|---|---|
| 分类 / 标注 | 1B | 1B 微调 |
| 自动补全 / 建议 | 1B | 1B 微调 |
| 短问答(1-2 句) | 1B | 1B 微调 |
| 聊天(多轮) | 3B | 3B 微调 |
| 摘要 | 3B | 3B 微调 |
| 内容起草 | 3B | 3B 微调 |
| 翻译 | 1-3B | 3B 微调 |
| 复杂推理 | 3B+ | 3B 微调(先测试) |
第 2 步: 了解你的受众
你的用户有什么设备?检查你的分析数据中的设备 RAM 分布。如果 80%+ 的用户有 6GB+ RAM, 3B 是安全的。如果你面向发展中市场或对价格敏感的用户, 1B 是更稳妥的选择。
第 3 步: 微调并测试
不要猜测。使用 Ertas 等平台在你的领域数据上同时微调 1B 和 3B。对照你的质量基准测试两者。选择满足你质量标准的最小模型。
微调投入很小(每次训练运行 $5-50),而测试给你的是实证而非假设。
第 4 步: 两个都提供
理 想的架构在运行时检测可用 RAM 并加载合适的模型:
- 4-6GB 设备: 1B 微调
- 6GB+ 设备: 3B 微调
- 回退: 4GB 以下设备使用云 API(或不提供 AI 功能)
这同时最大化了质量和设备覆盖率。
总结
| 1B | 3B | 7B | |
|---|---|---|---|
| 文件大小(Q4) | ~600MB | ~1.7GB | ~4GB |
| 速度(旗舰) | 35-50 tok/s | 18-30 tok/s | 6-12 tok/s |
| 设备覆盖率 | ~90% | ~65% | ~18% |
| 最佳用例 | 分类、建议 | 聊天、生成 | 移动端很少适用 |
| 微调后质量 | 超越提示词引导的云 API | 显著超越 | 如果 3B 已微调则不需要 |
从能处理你任务的最小模型开始。微调它。测试它。只有在质量确实不足时才选择更大的。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Gemma 3 for Mobile: Fine-Tuning and On-Device Deployment
How to use Google's Gemma 3 models for on-device mobile AI. Model selection, fine-tuning with LoRA, GGUF export, and deployment via llama.cpp on iOS and Android.

How to Add AI to Your Mobile App: A Developer's Decision Guide
A comprehensive guide covering every approach to adding AI features to iOS and Android apps. Cloud APIs, on-device models, and hybrid architectures compared with real cost and performance data.

Offline AI: Building Mobile Features That Work Without Internet
How to build AI features that work without an internet connection. On-device models, offline-first architecture patterns, and the use cases where offline AI is not optional.