
training datadatasetfine-tuningdata collectionmobile AIsegment:mobile-builder
从应用用户交互构建训练数据集
您的应用已经在生成微调所需的训练数据。如何收集、清洗和格式化用户交互,将其转化为能产出高质量端侧模型的数据集。
EErtas Team·
AI 模型最好的训练数据来自您自己的应用。用户的真实交 互、真实问题和真实内容恰恰代表了您的模型需要学习的领域。没有合成数据或公开数据集能比得上来自实际用例的数据质量。
本指南介绍如何收集、清洗和格式化这些数据以用于微调。
什么算训练数据
应用中的每一次用户交互都是潜在的训练样本:
| 应用类型 | 原始数据 | 训练样本 |
|---|---|---|
| 客户支持 | 用户问题 + 客服回复 | 问答对 |
| 笔记应用 | 用户笔记 + 自动生成摘要 | 摘要对 |
| 金融 | 交易描述 + 分配的类别 | 分类对 |
| 邮件 | 收到的邮件 + 用户的回复 | 回复生成对 |
| 电商 | 产品 + 用户评价 | 情感分析对 |
| 健康 | 症状描述 + 分诊结果 | 分类对 |
模式:任何输入-输出对,其中"正确"输出是已知的(来自明确的用户操作或专家判断),就是一个训练样本。
数据收集策略
被动收集(推荐的起步方式)
记录自然产生输入-输出对的用户交互:
- 搜索查询 + 点击结果: 被点击的结果就是"正确"答案
- 分类操作: 当用户为内容分配类别时,这就是一个标注样本
- 修正: 当用户编辑 AI 生成的回复时,编辑后的版本就是"正确"输出
- 接受: 当用户接受一个建议时,这就是一个正样本
// 记录用户修正作为训练数据
function onAiResponseEdited(original: string, edited: string, context: string) {
logTrainingExample({
input: context,
output: edited, // 用户的修正是训练目标
source: "user_correction",
timestamp: Date.now(),
});
}
主动收集
提示用户提供直接产生训练数据的反馈:
- 对 AI 回复点赞/踩: 筛选点赞的回复作为正样本
- 修正界面: 让用户修正 AI 回复;记录修正内容
- 模板使用: 当用户 选择并使用模板时,填充后的模板就是训练样本
合成数据补充
用合成样本补充真实数据:
- 取您最好的真实样本
- 使用更大的模型(GPT-4o、Claude Sonnet)生成变体
- 对照真实样本验证合成样本
- 混合合成和真实数据(目标至少 30% 真实数据)
隐私与同意
法律要求
在收集任何用户数据用于训练之前:
- 更新隐私政策 披露匿名化的交互数据可能用于改进 AI 功能
- 获取同意 在必要时(GDPR 要求处理个人数据需获得明确同意)