
从客户对话构建评估数据集
如何从真实客户交互中构建金标准评估数据集——从支持工单、销售电话和生产日志中提取测试用例,以衡量微调模型性能。
每个为客户微调模型的机构都面临同样的评估问题:你怎么知道模型在客户的真实用例中确实有效?
最好的评估数据集来自真实客户对话——支持工单、聊天日志、销售电话记录、生产故障报告。它们捕获了合成数据很少能复现的混乱、模糊、领域特定的输入。
为什么真实对话优于合成测试数据
- 分布准确性:真实数据反映实际分布
- 语言真实性:真实用户不像提示工程师那样写
- 边缘案例发现:你无法合成生成你没想到的边缘案例
来源
来源1:支持工单——最丰富的评估数据来源。目标:100-200张工单。 来源2:聊天日志——对话式评估数据。目标:75-150轮对话。 来源3:销售电话记录——用于销售辅助用例。目标:50-100个提取的关键时刻。 来源4:生产故障日志——最有价值的评估样本来自系统失败的案例。
提取和标注流程
- 匿名化——移除所有 PII
- 分类——标记每个样本的任务类型
- 标注期望输出——定义正确输出
- 格式化为 JSONL——版本化此文件
需要多少样本
50个样本:检测重大问题。100个:大多数机构部署的标准。200个:高置信度评估。
持续维护
每月添加10-20个新样本。每季度审查完整评估集。永远不要用评估数据训练。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

How to QA a Fine-Tuned Model Before Client Delivery
A complete QA process for testing fine-tuned models before delivering them to clients — covering functional testing, edge cases, regression checks, and client acceptance criteria.

MCP Tools for AI Agency Client Workflows: Deliver Models as Tools, Not Files
AI agencies typically deliver a model file. With MCP, you can deliver a Claude Desktop or Cursor tool that your client uses daily — recurring value that justifies a recurring retainer.

How to Evaluate Your Fine-Tuned Model: A Non-Technical Guide
Practical framework for evaluating fine-tuned model quality without ML expertise — covering accuracy checks, output consistency, edge case testing, and production readiness for agencies and product teams.