What is 模型评估（Model Evaluation）?

使用定量指标、定性评估和领域特定基准测试系统地衡量语言模型性能的过程。

Definition

模型评估是衡量语言模型在其预期任务上表现如何的过程，使用自动化指标、基准分数和人工判断的组合。评估有多种目的：将微调模型与基线进行比较、在训练过程中选择最佳检查点、验证模型是否满足生产质量要求，以及追踪跨模型更新的质量退化。

大语言模型评估之所以极具挑战性，是因为任务是开放式的，质量是多维度的。一个回答可能技术上准确但格式糟糕，流畅但存在幻觉，有帮助但不安全。没有单一指标能捕获质量的所有维度，因此全面的评估需要一套互补的方法：自动化指标（困惑度、BLEU、ROUGE）、基准性能（MMLU、HumanEval、MT-Bench）、任务特定评估（目标任务上的准确率、F1）以及人工评估（领域专家的质量评分）。

评估领域随着 LLM 作为评委方法的兴起而迅速发展，即使用强大的模型（如 GPT-4）来评估其他模型的输出。这种方法比人工评估更快、更便宜，同时与人类偏好有良好的相关性。但它也引入了自身的偏见——LLM 评委倾向于偏好冗长的回答，偏向自己的输出，且可能遗漏人类专家能够捕捉到的领域特定质量标准。

Why It Matters

评估决定了微调模型是否真的优于基础模型，以及是否达到生产部署的质量标准。没有严格的评估，团队可能会部署表现不佳的模型，在模型更新中引入退化，或浪费资源在不能改善关键指标的微调策略上。

评估方法论的选择直接影响业务成果。只关注自动化指标进行评估的团队可能会部署一个在基准测试中得分很高但在实际用户查询中失败的模型。只依赖精选示例的团队可能会遗漏系统性的失败模式。综合评估——结合自动化指标、基准分数和真实用户测试——提供了做出生产部署决策所需的信心。

How It Works

典型的评估管道分阶段运行。首先，在留出的验证集上计算自动化指标（困惑度、token 级准确率）——这些提供了模型已学到有用内容的快速、低成本信号。其次，在相关基准上评估模型（MMLU 用于通用知识，HumanEval 用于代码，领域特定基准用于专业任务），以将性能与其他模型进行对标。

第三，任务特定评估使用精心构建的测试集来衡量在实际目标用例上的性能，涵盖预期的输入分布，包括边缘案例和对抗样本。最后，人工评估——通过内部领域专家或 LLM 作为评委的方法——评估输出质量的定性维度：有用性、准确性、安全性和风格。结果汇总为评估报告，为部署决策提供依据。

Example Use Case

一个团队微调了用于技术文档生成的模型，并从四个维度进行评估。留出文档上的困惑度从 32 降至 11（强信号）。参考文档的 BLEU-4 从 15 提升至 34。领域专家对 100 篇生成文档从准确性、完整性和风格方面评分——微调模型得分 4.2/5，基础模型为 2.8/5。最后，他们将模型部署给小型内部团队使用 2 周，用户满意度达到 87%，超过了 80% 的全面部署阈值。