What is BLEU Score（BLEU 分數）?

一種透過測量生成輸出與一個或多個人類參考文字之間的 n-gram 重疊來評估機器生成文字品質的指標。

Definition

BLEU（Bilingual Evaluation Understudy，雙語評估替代方案）是一種自動化文字評估指標，最初為機器翻譯開發，用於測量生成文字（候選）與一個或多個參考文字之間的 n-gram 匹配精確度。分數範圍從 0 到 1（通常表示為 0-100），其中 1 表示與參考完全重疊。BLEU 在多個 n-gram 層級（預設從 unigram 到 4-gram）計算精確度，並使用幾何平均值組合，然後應用簡短懲罰來懲罰比參考更短的輸出。

儘管是為機器翻譯設計的，BLEU 已被廣泛採用作為通用文字生成指標。它常用於評估文字摘要、改寫、程式碼生成和對話系統。然而，其局限性已被充分記錄：BLEU 衡量的是表面層級的詞彙重疊，而非語義相似性，這意味著一個使用不同詞彙的完全有效的改寫可能得到低 BLEU 分數，而一個語義不正確但詞彙相似的文字可能得到高分。

在 LLM 時代，BLEU 越來越多地被基於模型的評估指標所補充或取代，如 BERTScore（使用上下文嵌入進行語義相似性比較）和 LLM 即評委方法（使用強大的模型來評價生成文字的品質）。然而，BLEU 仍被廣泛報告，因為它計算速度快、確定性強、可重複且易於理解——使其成為配合更精密評估方法的有用基準指標。

Why It Matters

自動化評估指標對於模型開發期間的快速迭代至關重要。手動評估每個模型輸出在速度和成本上都不切實際，特別是在比較多個訓練配置時。BLEU 提供了即時、可重複的品質訊號，在許多生成任務上與人類判斷有合理的相關性。

對於基準測試和研究，BLEU 的確定性使其在可重複比較方面很有價值。兩個團隊在相同測試集上評估不同模型將獲得相同的 BLEU 分數，實現有意義的比較。這種可重複性，加上其數十年的記錄，解釋了為什麼 BLEU 繼續在大多數 NLP 論文中與較新的指標一起報告。

How It Works

BLEU 計算涉及多個步驟。首先，對每個 n-gram 大小（預設為 1 到 4）計算 n-gram 精確度。對於每個 n-gram 大小，候選中出現在參考中的 n-gram 數量除以候選中 n-gram 的總數。剪裁機制確保每個參考 n-gram 最多匹配一次，防止重複輸出產生膨脹的分數。

每個 n-gram 大小的修正精確度使用加權幾何平均值（預設等權重 0.25）組合。最後，應用簡短懲罰：如果候選比參考短，分數乘以 exp(1 - reference_length/candidate_length)。此懲罰防止模型透過產生非常短的高精確度輸出來利用該指標。最終 BLEU 分數是幾何平均精確度和簡短懲罰的乘積。

Example Use Case

一個微調客戶郵件摘要模型的團隊對照 500 份人工撰寫的摘要評估模型輸出。基礎模型達到 BLEU-4 分數 18.3，而微調模型達到 31.7——73% 的改善，與人類評估者偏好微調模型摘要的結果相關。他們還計算了 BERTScore 並運行 LLM 即評委評估來確認改善，在快速迭代期間使用 BLEU 作為快速檢驗。