What is Model Evaluation（模型評估）?

使用定量指標和領域基準系統化測量語言模型效能的過程。

Definition

模型評估是使用自動化指標、基準分數和人工判斷的組合來衡量語言模型在其預期任務上表現的過程。評估服務於多種目的：將微調模型與基準線進行比較、在訓練期間選擇最佳檢查點、驗證模型是否滿足生產品質要求，以及追蹤模型更新之間的品質退化。

LLM 評估是出了名的困難，因為任務是開放式的且品質是多維的。一個回應可能技術上準確但格式不佳、流暢但存在幻覺、有用但不安全。沒有單一指標能捕捉品質的所有維度，因此全面的評估需要一套互補的方法：自動化指標（困惑度、BLEU、ROUGE）、基準效能（MMLU、HumanEval、MT-Bench）、特定任務評估（目標任務的準確度、F1）和人工評估（領域專家的品質評分）。

評估領域隨著 LLM 作為評審員方法的興起而迅速演變，即使用強大的模型（如 GPT-4）評估其他模型的輸出。這種方法比人工評估更快、更便宜，同時與人類偏好有良好的相關性。然而，它引入了自身的偏差——LLM 評審員傾向於偏好冗長的回應、偏好自己的輸出，並可能遺漏人類專家會注意到的領域特定品質標準。

Why It Matters

評估決定了微調模型是否確實優於基礎模型，以及是否達到了生產部署的品質標準。沒有嚴格的評估，團隊有可能部署表現不佳的模型、在模型更新中引入退化，或在實際上沒有改善重要指標的微調策略上浪費資源。

評估方法的選擇直接影響業務成果。只在自動化指標上評估的團隊可能部署一個在基準測試上得分很高但在真實使用者查詢上失敗的模型。只依賴精心挑選範例的團隊可能遺漏系統性的失敗模式。全面的評估——結合自動化指標、基準分數和真實世界使用者測試——為生產部署決策提供所需的信心。

How It Works

典型的評估管線分階段運行。首先，在保留的驗證集上計算自動化指標（困惑度、token 層級準確度）——這些提供了一個快速、低成本的信號，表明模型已學到有用的東西。其次，在相關基準上評估模型（MMLU 用於一般知識、HumanEval 用於程式碼、領域特定基準用於專業任務），以在其他模型的背景下定位效能。

第三，特定任務評估使用精心構建的測試集衡量在實際目標使用場景上的效能，涵蓋預期的輸入分佈，包括邊緣案例和對抗性範例。最後，人工評估——無論是透過內部主題專家還是 LLM 作為評審員的方法——評估輸出品質的定性維度：有用性、準確性、安全性和風格。結果被匯總成評估報告，為部署決策提供依據。

Example Use Case

一個團隊微調模型用於技術文件生成，並從四個維度進行評估。保留文件上的困惑度從 32 降至 11（強信號）。與參考文件相比的 BLEU-4 從 15 提高到 34。領域專家對 100 份生成的文件在準確性、完整性和風格方面進行評分——微調模型得分 4.2/5，而基礎模型為 2.8/5。最後，他們將模型部署給一小組內部使用者 2 週，測量使用者滿意度為 87%，超過了全面部署的 80% 門檻。