What is 基准测试?

一套标准化的测试套件，包含定义好的任务和指标，用于评估和比较不同模型和配置下的语言模型性能。

Definition

机器学习中的基准测试是一组标准化的评估数据集，配有特定的任务、指标和评估协议，能够对模型性能进行一致的比较。基准测试为讨论模型能力提供了一种通用语言——当一篇论文报告模型在MMLU上得分85%时，全球从业者都理解这意味着什么，因为MMLU有固定的题目集、定义好的评估程序和其他模型的已发布分数。

LLM基准测试生态系统广泛且不断发展。通用基准测试包括MMLU（大规模多任务语言理解，涵盖57个学术科目）、ARC（AI2推理挑战，测试科学推理）、HellaSwag（常识推理）和TruthfulQA（衡量事实准确性）。代码基准测试包括HumanEval、MBPP和SWE-bench。对话基准测试包括MT-Bench和Chatbot Arena。针对医学（MedQA）、法律（LegalBench）、金融（FinBen）等领域也存在特定的基准测试。

基准测试面临一个持续的数据污染挑战——当基准测试数据泄露到模型训练数据中时，分数会被人为抬高并变得不可靠。LLM社区通过实时基准测试（Chatbot Arena，使用实时人类偏好）、留出测试集和污染检测工具来应对。尽管存在这些挑战，基准测试仍是该领域跟踪进展和比较模型的主要机制。

Why It Matters

基准测试使模型选择变得有据可依。在为微调选择Llama 3 8B、Mistral 7B和Qwen 2 7B等基础模型时，在相关类别（推理、代码、知识）中的基准分数有助于确定哪个模型是给定用例最强的起点。没有基准测试，模型选择只能依赖轶事和营销宣传。

对于微调从业者来说，基准测试充当质量检查点。如果微调模型的MMLU分数比基础模型显著下降，这表明发生了灾难性遗忘——模型在学习目标任务的过程中丢失了通用知识。监控微调前后的基准分数有助于确保专业化不会以不可接受的通用能力损失为代价。

How It Works

基准测试评估遵循标准化协议。模型接收基准数据集中的测试输入，生成预测（或从多选项中选择），然后使用基准定义的指标将预测与真实标签进行评分。大多数基准使用准确率（正确答案的百分比），但有些使用更细致的指标如F1分数、精确匹配或代码生成的pass@k。

基准排行榜汇总各模型的分数，提供社区用于跟踪进展的排名。主要排行榜包括Hugging Face的Open LLM Leaderboard、LMSYS Chatbot Arena和斯坦福的HELM。这些排行榜对各模型应用一致的评估程序，确保公平比较。有些基准使用少样本提示（在提示中提供示例），而其他基准测试零样本性能——评估协议显著影响分数，必须保持一致才能进行有效比较。

Example Use Case

一个为医疗微调选择基础模型的团队在MedQA（医学考试题）、MMLU-medical（MMLU的医学子集）和PubMedQA（生物医学研究问题）上比较三个模型。模型A在MedQA上得分最高但在PubMedQA上最低。模型B在所有基准测试中都稳定排第二。他们选择模型B因为其均衡的医学知识，然后在专有临床数据上对其微调。微调后，他们重新运行医学基准测试，确认性能提升且通用医学知识未降级。