Back to blog
    从客户对话构建评估数据集
    evaluationdatasetclient-deliveryfine-tuningsegment:agency

    从客户对话构建评估数据集

    如何从真实客户交互中构建金标准评估数据集——从支持工单、销售电话和生产日志中提取测试用例,以衡量微调模型性能。

    EErtas Team·

    每个为客户微调模型的机构都面临同样的评估问题:你怎么知道模型在客户的真实用例中确实有效?

    最好的评估数据集来自真实客户对话——支持工单、聊天日志、销售电话记录、生产故障报告。它们捕获了合成数据很少能复现的混乱、模糊、领域特定的输入。

    为什么真实对话优于合成测试数据

    • 分布准确性:真实数据反映实际分布
    • 语言真实性:真实用户不像提示工程师那样写
    • 边缘案例发现:你无法合成生成你没想到的边缘案例

    来源

    来源1:支持工单——最丰富的评估数据来源。目标:100-200张工单。 来源2:聊天日志——对话式评估数据。目标:75-150轮对话。 来源3:销售电话记录——用于销售辅助用例。目标:50-100个提取的关键时刻。 来源4:生产故障日志——最有价值的评估样本来自系统失败的案例。

    提取和标注流程

    1. 匿名化——移除所有 PII
    2. 分类——标记每个样本的任务类型
    3. 标注期望输出——定义正确输出
    4. 格式化为 JSONL——版本化此文件

    需要多少样本

    50个样本:检测重大问题。100个:大多数机构部署的标准。200个:高置信度评估。

    持续维护

    每月添加10-20个新样本。每季度审查完整评估集。永远不要用评估数据训练。

    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading