Back to blog
    针对小模型蒸馏优化的合成数据生成
    synthetic-datamodel-distillationon-device-aidata-preparationfine-tuningsegment:enterprise

    针对小模型蒸馏优化的合成数据生成

    构建移动 NPU 部署的 0.5B-1B 模型时,合成数据质量的重要性成指数级增长。以下是如何生成、过滤和验证专为小模型蒸馏设计的合成训练数据。

    EErtas Team·

    构建移动 NPU 部署的 0.5B 参数模型与构建云推理的 70B 模型根本不同。模型小 140 倍。对噪声或不对齐训练数据的容忍度接近零。

    标准方法——大教师模型生成示例,用于训练小学生模型——在学生为 7B-13B 时可以接受。但在学生为 0.5B-1B 时就崩溃了,因为教师生成的文本复杂度超出了学生能再现的水平。

    关键过滤策略

    长度分布匹配:匹配生产输入/输出分布。 复杂度评分:在学生模型上运行困惑度,丢弃高于阈值的示例。 领域相关性评分:嵌入相似度过滤。 格式一致性强制:零容忍格式变异。

    数据

    指标朴素方法优化方法
    生成合成示例100,000100,000
    最终训练集80,00020,000
    端侧准确率61-68%84-91%

    优化方法使用 75% 更少的训练示例,达到高 20-30 个百分点的准确率。质量优于数量不是空话——在低于 1B 的规模下它是全部策略。

    预约探索通话 讨论你端侧 AI 部署的合成数据策略。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading