为什么你的微调数据集不适用于端侧 AI——以及如何修复

你在企业数据上微调了一个 700 亿模型。它表现良好。现在你将其蒸馏到 5 亿模型用于在移动 NPU 上部署。准确率从 92% 下降到 61%。

这不是蒸馏问题。这是数据问题。

修复不是更好的蒸馏技术。而是从一开始就为目标模型设计的数据集。

为什么大模型数据集在小规模下失败

注意力头限制、上下文窗口约束、词汇利用和分布敏感性——所有这些使得为 700 亿模型优化的数据在 5 亿模型上成为负担而非资产。

第 1 步： 在接触数据前定义目标约束（模型大小、硬件、上下文窗口、量化级别）。

第 2 步： 以正确的复杂度级别生成合成数据。限制到学生模型的生产上下文窗口和推理深度。

第 3 步： 积极过滤。长度过滤、复杂度评分、去重、领域相关性评分、平衡强制。目标 5,000-20,000 个高质量示例。

第 4 步： 在扩展前在目标硬件上验证。

源数据通常是敏感的。数据准备必须在本地进行，即使最终模型在端侧运行。

Ertas Data Suite 作为原生桌面应用运行。Clean 模块提供根据目标模型大小校准的质量评分。Augment 模块使用本地 LLM 生成合成训练数据。Export 模块输出用于微调框架的 JSONL。