evaluationdatasetclient-deliveryfine-tuningsegment:agency

从客户对话构建评估数据集

如何从真实客户交互中构建金标准评估数据集——从支持工单、销售电话和生产日志中提取测试用例，以衡量微调模型性能。

EErtas Team·February 24, 2026

每个为客户微调模型的机构都面临同样的评估问题：你怎么知道模型在客户的真实用例中确实有效？

最好的评估数据集来自真实客户对话——支持工单、聊天日志、销售电话记录、生产故障报告。它们捕获了合成数据很少能复现的混乱、模糊、领域特定的输入。

为什么真实对话优于合成测试数据

分布准确性：真实数据反映实际分布
语言真实性：真实用户不像提示工程师那样写
边缘案例发现：你无法合成生成你没想到的边缘案例

来源

来源1：支持工单——最丰富的评估数据来源。目标：100-200张工单。 来源2：聊天日志——对话式评估数据。目标：75-150轮对话。 来源3：销售电话记录——用于销售辅助用例。目标：50-100个提取的关键时刻。 来源4：生产故障日志——最有价值的评估样本来自系统失败的案例。

提取和标注流程

匿名化——移除所有 PII
分类——标记每个样本的任务类型
标注期望输出——定义正确输出
格式化为 JSONL——版本化此文件

需要多少样本

50个样本：检测重大问题。100个：大多数机构部署的标准。200个：高置信度评估。

持续维护

每月添加10-20个新样本。每季度审查完整评估集。永远不要用评估数据训练。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

Keep reading

如何在交付客户前对微调模型进行质量保证

机构实战手册

如何在交付客户前对微调模型进行质量保证

微调模型交付客户前的完整 QA 流程——涵盖功能测试、边缘情况、回归检查和客户验收标准。

用于AI机构客户工作流的MCP工具：交付工具而非文件

用于AI机构客户工作流的MCP工具：交付工具而非文件

AI机构通常交付一个模型文件。通过MCP，你可以交付一个客户每天使用的Claude Desktop或Cursor工具——持续价值证明持续收费的合理性。

如何界定定制 AI 模型项目的范围（以及如何定价）

如何界定定制 AI 模型项目的范围（以及如何定价）

定制 AI 模型项目的发现问题、项目类型、价格范围和范围管理策略。如何在报价之前正确界定范围。