每个规模的基准

50-100 示例： 明显的风格转变，但一致性差（60-70%）。适合概念验证。

200-500 示例： 窄任务上的可靠性能。分类准确率 82-90%。适合可预测输入模式的窄生产任务。

1,000-2,000 示例： 大多数 fine-tuning 项目的甜蜜点。分类准确率 90-95%。适合大多数生产部署。

3,000-5,000 示例： 复杂任务的生产级性能。适合输入空间大且多样的复杂任务。

10,000+ 示例： 边际改进。适合多语言任务或安全关键应用。

递减收益曲线

数据集大小与模型性能之间的关系遵循对数曲线。从 500 翻倍到 1,000 可能改进 8%。从 1,000 到 2,000 改进 4%。从 4,000 到 8,000 约 1%。

不要猜测。衡量。使用学习曲线分析：在 25%、50%、75%、100% 数据上 fine-tune，绘制曲线。

用例	起步	生产目标	最大有用量
客服分类	500-800	1,000-1,500	3,000
文档数据提取	300-500	800-1,200	2,000
内容生成	800-1,200	2,000-3,000	5,000-8,000
法律/医疗文档分析	1,000-2,000	3,000-5,000	10,000+

对于大多数团队：从 1,000 到 2,000 示例开始。运行学习曲线分析。在收集更多数据之前先清洗数据。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.