
微调用合成数据:如何生成真正有效的训练数据
生成微调用合成训练数据的实用指南——涵盖提示策略、质量过滤、分布匹配以及混合真实和合成数据的 80/20 法则。
微调受数据限制。不是计算,不是模型架构,不是超参数调优。数据。大多数尝试微调的团队在第一周内就发现这个问题——他们有 50 到 200 个真实示例,需要 1,000 到 5,000 个。
合成数据生成提供了出路。你使用前沿模型生成较小模型将从中学习的训练示例。做好了,合成数据可以达到等效人工策划数据集 80-90% 的性能,成本仅为 1/100,时间仅为 1/1000。
策略 1:直接提示
最简单的方法。描述任务并要求前沿模型生成输入-输出对。生成 5,000 示例成本 $8-15。
策略 2:种子扩展
从真实示例开始作为种子生成更多。这是最高 ROI 策略。
策略 3:思维链提取
生成包含推理过程的示例。
策略 4:基于角色的生成
从多个模拟角色生成数据以最大化多样性。
质量过滤管道
预期丢弃 15-30% 的生成示例:
- 格式验证(5-10%)
- 去重(5-10%)
- 标签验证
- 难度分布
- 长度和复杂度分布
80/20 法则:混合真实和合成数据
- 80% 合成,20% 真实 — 真实数据有限时
- 50/50 — 有更多真实数据时
- 20% 合成,80% 真实 — 真实数据充足时仅填补缺口
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

From Prompt Engineering to Fine-Tuning: The Migration Playbook
A practical playbook for teams migrating from prompt engineering to fine-tuning — when to make the switch, how to convert prompts into training data, and the step-by-step migration process.

Synthetic Data Generation for Fine-Tuning: Techniques That Work
Practical techniques for generating high-quality synthetic training data using frontier models — covering prompt engineering, data augmentation, and quality filtering for fine-tuning datasets.

Fine-Tuning for Voice AI Agents: Vapi, ElevenLabs, and Local Models
Voice AI agents running on GPT-4 cost $0.10-0.30 per minute of conversation. Fine-tuned local models cut that to near-zero. Here's how to build voice agents that don't bankrupt you per call.