Back to blog
    端侧 AI 模型大小指南: 移动端 1B vs 3B vs 7B
    model sizeon-device AImobile AIGGUFarchitecturesegment:mobile-builder

    端侧 AI 模型大小指南: 移动端 1B vs 3B vs 7B

    如何为你的移动应用选择合适的模型大小。能力详解、设备要求、质量基准,以及改变算法的微调因素。

    EErtas Team·

    为你的移动应用选择合适的模型大小是端侧 AI 中最关键的技术决策。太小,模型无法处理你的任务。太大,运行缓慢、占用过多内存,或排除太多设备。

    正确答案取决于你的任务、目标设备以及你是否进行微调。

    大小谱系

    参数量GGUF Q4 大小所需 RAM设备要求
    1B~600MB~800MB4GB+ RAM(任何现代手机)
    3B~1.7GB~2.2GB6GB+ RAM(2023+ 中端)
    7B~4GB~5GB8GB+ RAM(仅旗舰)

    这些大小假设 Q4_K_M 量化,它在大小缩减和质量保持之间提供了最佳平衡。更高的量化级别(Q5、Q8)增加 25-100% 的大小,但质量提升微乎其微。

    各规格能做什么

    1B 模型

    优势:

    • 文本分类(情感、类别、意图)
    • 自动补全和文本预测
    • 智能建议(回复建议、操作建议)
    • 命名实体识别
    • 简短回答的简单问答
    • 关键词提取和标注

    局限:

    • 推理能力有限
    • 短且有时重复的生成
    • 对细微指令理解困难
    • 无法保持连贯的长文本输出

    最适合: 将输入转化为结构化输出的功能。分类、标注、建议和短文本生成。

    3B 模型

    优势:

    • 多轮连贯的对话聊天
    • 文章和文档摘要
    • 内容起草(邮件、消息、笔记)
    • 常见语言对之间的翻译
    • 复杂指令遵循
    • 结构化输出生成(JSON、格式化文本)

    局限:

    • 比 1B 慢(大约一半的速度)
    • 无法匹配前沿模型的推理能力(GPT-4、Claude Sonnet)
    • 没有微调的情况下,可能在高度技术性或专业内容上表现不佳
    • 内存使用是 1B 的 2-3 倍

    最适合: 生成人类可读文本的功能。聊天、摘要、内容创作和复杂分类。

    7B 模型

    优势:

    • 更强的推理和推断能力
    • 在模糊或开放式任务上表现更好
    • 更稳健的指令遵循
    • 能处理更长、更连贯的输出

    局限:

    • 仅在 8GB+ RAM 的旗舰设备上运行
    • 生成缓慢(大多数设备上 5-12 tok/s)
    • 排除 50-70% 的设备市场
    • 内存压力导致应用不稳定

    最适合: 对移动端来说很少是正确选择。设备覆盖和性能折衷太严重。如果你需要 7B 的质量,请在你的领域数据上微调 3B 模型。

    质量对比

    通用基准(基础模型,未微调)

    任务1B3B7B
    文本分类准确率78-85%85-90%88-93%
    摘要质量(人工评估)5.5/107/108/10
    指令遵循率70%85%90%
    对话连贯性(5 轮)很好
    JSON 输出可靠性60%82%90%

    在领域数据上微调后

    任务1B 微调后3B 微调后云 API(提示词引导)
    领域分类准确率90-94%93-96%71-80%
    领域特定问答82-88%88-94%75-82%
    结构化输出可靠性85-90%92-96%80-88%

    关键洞察: 微调后的 1B 模型在领域特定任务上优于经提示词引导的云 API。 微调后的 3B 模型显著超越它。微调在保持模型足够小以适合移动端的同时缩小了质量差距。

    微调因素

    微调改变了大小选择的计算方式:

    不微调时, 你需要更大的模型来处理你的任务,因为模型依赖通用知识和提示词指令。你用更多参数来弥补领域知识的缺乏。

    微调后, 你将领域知识烘焙到模型权重中。模型不需要从提示词中理解你的领域,它已经知道了。这意味着较小的微调模型在你的特定任务上通常能匹配或超越更大的通用模型。

    实际影响:

    • 需要聊天?从 3B 微调开始。你可能会发现它在你的领域上匹配云 API 的质量。
    • 需要分类?从 1B 微调开始。它很可能超过你的云 API 准确率。
    • 认为你需要 7B?先微调 3B。测试它。你很可能不需要 7B。

    按模型大小的设备覆盖率

    模型大小iPhone 覆盖率Android 覆盖率总可触达量
    1BiPhone 12+(95%+ 活跃)4GB+(85%+ 活跃)约 90% 的智能手机
    3BiPhone 14+(70%+ 活跃)6GB+(60%+ 活跃)约 65% 的智能手机
    7BiPhone 15 Pro+(15% 活跃)8GB+ 旗舰(20% 活跃)约 18% 的智能手机

    选择 1B 而非 3B 大约可使你的可触达设备市场翻倍。选择 3B 而非 7B 可使其增加三倍。

    决策框架

    第 1 步: 定义你的任务

    模型在你的应用中要做什么?

    任务类型最低规格推荐规格
    分类 / 标注1B1B 微调
    自动补全 / 建议1B1B 微调
    短问答(1-2 句)1B1B 微调
    聊天(多轮)3B3B 微调
    摘要3B3B 微调
    内容起草3B3B 微调
    翻译1-3B3B 微调
    复杂推理3B+3B 微调(先测试)

    第 2 步: 了解你的受众

    你的用户有什么设备?检查你的分析数据中的设备 RAM 分布。如果 80%+ 的用户有 6GB+ RAM, 3B 是安全的。如果你面向发展中市场或对价格敏感的用户, 1B 是更稳妥的选择。

    第 3 步: 微调并测试

    不要猜测。使用 Ertas 等平台在你的领域数据上同时微调 1B 和 3B。对照你的质量基准测试两者。选择满足你质量标准的最小模型。

    微调投入很小(每次训练运行 $5-50),而测试给你的是实证而非假设。

    第 4 步: 两个都提供

    理想的架构在运行时检测可用 RAM 并加载合适的模型:

    • 4-6GB 设备: 1B 微调
    • 6GB+ 设备: 3B 微调
    • 回退: 4GB 以下设备使用云 API(或不提供 AI 功能)

    这同时最大化了质量和设备覆盖率。

    总结

    1B3B7B
    文件大小(Q4)~600MB~1.7GB~4GB
    速度(旗舰)35-50 tok/s18-30 tok/s6-12 tok/s
    设备覆盖率~90%~65%~18%
    最佳用例分类、建议聊天、生成移动端很少适用
    微调后质量超越提示词引导的云 API显著超越如果 3B 已微调则不需要

    从能处理你任务的最小模型开始。微调它。测试它。只有在质量确实不足时才选择更大的。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading