What is Benchmark（基準測試）?

一套具有明確任務和指標的標準化測試套件，用於評估和比較不同模型和配置下的語言模型表現。

Definition

機器學習中的基準測試是一個標準化的評估資料集，搭配特定的任務、指標和評估協議，能夠對模型表現進行一致的比較。基準測試為討論模型能力提供了通用語言——當一篇論文報告模型在 MMLU 上得分 85% 時，全球的從業者都理解這意味著什麼，因為 MMLU 有固定的題目集、明確的評估程序和已發布的其他模型分數。

LLM 基準測試生態系統廣泛且不斷演進。通用基準測試包括 MMLU（涵蓋 57 個學術科目的大規模多任務語言理解）、ARC（測試科學推理的 AI2 推理挑戰）、HellaSwag（常識推理）和 TruthfulQA（衡量事實準確性）。程式碼基準測試包括 HumanEval、MBPP 和 SWE-bench。對話基準測試包括 MT-Bench 和 Chatbot Arena。醫學（MedQA）、法律（LegalBench）、金融（FinBen）等眾多領域也有專門的基準測試。

基準測試面臨持續的污染挑戰——當基準測試資料洩漏到模型訓練資料中時，分數會被膨脹且不可靠。LLM 社群透過即時基準測試（如使用即時人類偏好的 Chatbot Arena）、保留測試集和污染檢測工具來解決此問題。儘管存在這些挑戰，基準測試仍然是追蹤進展和比較模型的主要機制。

Why It Matters

基準測試能夠實現有依據的模型選擇。在 Llama 3 8B、Mistral 7B 和 Qwen 2 7B 之間選擇作為微調基礎模型時，相關類別（推理、程式碼、知識）的基準測試分數有助於識別哪個模型是特定用例最強的起點。沒有基準測試，模型選擇將依賴軼事和行銷聲稱。

對於微調從業者，基準測試作為品質檢查點。如果微調模型的 MMLU 分數從基礎模型顯著下降，這暗示災難性遺忘——模型在學習目標任務時失去了通用知識。監控微調前後的基準測試分數有助於確保專業化不會以不可接受的通用能力損失為代價。

How It Works

基準測試評估遵循標準化協議。模型接收基準測試資料集的測試輸入，生成預測（或從多個選項中選擇），預測結果根據基準測試定義的指標與真實標籤進行評分。大多數基準測試使用準確度（正確答案的百分比），但有些使用更細緻的指標，如 F1 分數、完全匹配或程式碼生成的 pass@k。

基準測試排行榜匯總了跨模型的分數，提供社群用於追蹤進展的排名。主要排行榜包括 Hugging Face 的 Open LLM Leaderboard、LMSYS Chatbot Arena 和 Stanford 的 HELM。這些排行榜在模型間應用一致的評估程序，確保公平比較。有些基準測試使用少樣本提示（在提示中提供範例），而其他測試零樣本表現——評估協議顯著影響分數，且必須一致才能進行有效比較。

Example Use Case

一個為醫療微調選擇基礎模型的團隊在 MedQA（醫學考試問題）、MMLU-medical（MMLU 的醫學子集）和 PubMedQA（生物醫學研究問題）上比較了三個模型。模型 A 在 MedQA 上得分最高但在 PubMedQA 上最低。模型 B 在所有基準測試上始終排第二。他們選擇了模型 B 因為其均衡的醫學知識，然後在其專有臨床資料上進行微調。微調後，他們重新運行醫學基準測試以確認表現提升而不會降低通用醫學知識。