微调受数据限制。不是计算，不是模型架构，不是超参数调优。数据。大多数尝试微调的团队在第一周内就发现这个问题——他们有 50 到 200 个真实示例，需要 1,000 到 5,000 个。

合成数据生成提供了出路。你使用前沿模型生成较小模型将从中学习的训练示例。做好了，合成数据可以达到等效人工策划数据集 80-90% 的性能，成本仅为 1/100，时间仅为 1/1000。

策略 1：直接提示

最简单的方法。描述任务并要求前沿模型生成输入-输出对。生成 5,000 示例成本 $8-15。

策略 2：种子扩展

从真实示例开始作为种子生成更多。这是最高 ROI 策略。

生成包含推理过程的示例。

从多个模拟角色生成数据以最大化多样性。

预期丢弃 15-30% 的生成示例：

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.