
fine-tuningtraining-dataloraqloradataseton-device-aisegment:mobile-builder
你到底需要多少训练示例?100样本的迷思
AI模型微调的真实数据需求。研究表明50-500个示例对许多任务已经足够。以下是论文的结论以及如何构建你的数据集。
EErtas Team·
"我很想微调一个模型,但我没有足够的数据。"
这是开发者从未开始的最常见原因。而对于大多数用例来说,这是错的。
微调需要数百万标注示例的假设来自机器学习的早期时代,那时大语言模型还不存在。预训练的LLM已经懂得语言、语法、推 理模式和大量领域知识。你不是从零开始教模型理解文本,而是将它引导向特定的风格、词汇或任务模式。这是一项小得多的工作,所需的数据也远低于人们的预期。
以下是研究的实际结论。
研究怎么说
关于数据高效微调的最重要论文都指向同一个方向:质量胜过数量,"足够"的门槛比直觉所想的更低。
OpenAI自己的建议:从50-100个示例开始
OpenAI的微调文档建议在微调GPT-3.5和GPT-4o时从50到100个示例开始。不是作为勉强过关的最低限度,而是作为能产生可衡量改进的真正起点。文档明确指出,更多示例可以有所帮助,但最初几十个示例通常带来最大的收益。
如果一家按推理token收费的公司建议从50个示例开始,这对于数据门槛实际在哪里是一个有意义的信号。