SmolLM2 和低于 3B 的模型：边缘和移动端微调

有一类模型大多数开发者忽略了。它们太小了，不会出现在排行榜上。它们不能写论文或解微分方程。

但它们在手机上运行。在浏览器标签页中运行。在 45 美元的树莓派上运行。当你为一个特定任务微调它们时，它们可以做得足够好来部署到生产应用中。

低于 3B 的模型景观

模型	参数	大小 (Q4_K_M)	关键优势
SmolLM2 135M	135M	85 MB	最小可用模型
SmolLM2 1.7B	1.7B	1.0 GB	最佳低于 2B 模型
Qwen 2.5 0.5B	500M	350 MB	小规模多语言
Qwen 2.5 3B	3B	1.9 GB	低于 3B 范围顶部
Phi-3.5 Mini	3.8B	2.3 GB	此规模最强推理

它们能做什么和不能做什么

能做好的： 单标签分类（88-95% 准确率）、命名实体提取、短文本生成、意图检测、二元决策。

不能做的： 多步推理、长文本生成（超过 100-150 token 质量下降）、复杂结构化输出、通用知识问答、多轮对话。

微调策略

数据质量优于数量。 目标：200-500 个高质量示例。每个示例必须无歧义、有代表性、干净。

部署目标

iOS：iPhone 12 及以上可运行 SmolLM2 1.7B，分类延迟 48ms。 Android：现代设备舒适运行所有低于 3B 模型。 浏览器：SmolLM2 135M 通过 WebLLM，不到 1 秒加载，15ms 建议。 树莓派：Pi 5 运行 SmolLM2 1.7B，8.5 token/秒。