Back to blog
    微调用合成数据:如何生成真正有效的训练数据
    synthetic-datafine-tuningdata-generationguidesegment:agency

    微调用合成数据:如何生成真正有效的训练数据

    生成微调用合成训练数据的实用指南——涵盖提示策略、质量过滤、分布匹配以及混合真实和合成数据的 80/20 法则。

    EErtas Team··Updated

    微调受数据限制。不是计算,不是模型架构,不是超参数调优。数据。大多数尝试微调的团队在第一周内就发现这个问题——他们有 50 到 200 个真实示例,需要 1,000 到 5,000 个。

    合成数据生成提供了出路。你使用前沿模型生成较小模型将从中学习的训练示例。做好了,合成数据可以达到等效人工策划数据集 80-90% 的性能,成本仅为 1/100,时间仅为 1/1000。

    策略 1:直接提示

    最简单的方法。描述任务并要求前沿模型生成输入-输出对。生成 5,000 示例成本 $8-15。

    策略 2:种子扩展

    从真实示例开始作为种子生成更多。这是最高 ROI 策略。

    策略 3:思维链提取

    生成包含推理过程的示例。

    策略 4:基于角色的生成

    从多个模拟角色生成数据以最大化多样性。

    质量过滤管道

    预期丢弃 15-30% 的生成示例:

    1. 格式验证(5-10%)
    2. 去重(5-10%)
    3. 标签验证
    4. 难度分布
    5. 长度和复杂度分布

    80/20 法则:混合真实和合成数据

    • 80% 合成,20% 真实 — 真实数据有限时
    • 50/50 — 有更多真实数据时
    • 20% 合成,80% 真实 — 真实数据充足时仅填补缺口

    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading