What is BLEU Score(BLEU 分數)?

    一種透過測量生成輸出與一個或多個人類參考文字之間的 n-gram 重疊來評估機器生成文字品質的指標。

    Definition

    BLEU(Bilingual Evaluation Understudy,雙語評估替代方案)是一種自動化文字評估指標,最初為機器翻譯開發,用於測量生成文字(候選)與一個或多個參考文字之間的 n-gram 匹配精確度。分數範圍從 0 到 1(通常表示為 0-100),其中 1 表示與參考完全重疊。BLEU 在多個 n-gram 層級(預設從 unigram 到 4-gram)計算精確度,並使用幾何平均值組合,然後應用簡短懲罰來懲罰比參考更短的輸出。

    儘管是為機器翻譯設計的,BLEU 已被廣泛採用作為通用文字生成指標。它常用於評估文字摘要、改寫、程式碼生成和對話系統。然而,其局限性已被充分記錄:BLEU 衡量的是表面層級的詞彙重疊,而非語義相似性,這意味著一個使用不同詞彙的完全有效的改寫可能得到低 BLEU 分數,而一個語義不正確但詞彙相似的文字可能得到高分。

    在 LLM 時代,BLEU 越來越多地被基於模型的評估指標所補充或取代,如 BERTScore(使用上下文嵌入進行語義相似性比較)和 LLM 即評委方法(使用強大的模型來評價生成文字的品質)。然而,BLEU 仍被廣泛報告,因為它計算速度快、確定性強、可重複且易於理解——使其成為配合更精密評估方法的有用基準指標。

    Why It Matters

    自動化評估指標對於模型開發期間的快速迭代至關重要。手動評估每個模型輸出在速度和成本上都不切實際,特別是在比較多個訓練配置時。BLEU 提供了即時、可重複的品質訊號,在許多生成任務上與人類判斷有合理的相關性。

    對於基準測試和研究,BLEU 的確定性使其在可重複比較方面很有價值。兩個團隊在相同測試集上評估不同模型將獲得相同的 BLEU 分數,實現有意義的比較。這種可重複性,加上其數十年的記錄,解釋了為什麼 BLEU 繼續在大多數 NLP 論文中與較新的指標一起報告。

    How It Works

    BLEU 計算涉及多個步驟。首先,對每個 n-gram 大小(預設為 1 到 4)計算 n-gram 精確度。對於每個 n-gram 大小,候選中出現在參考中的 n-gram 數量除以候選中 n-gram 的總數。剪裁機制確保每個參考 n-gram 最多匹配一次,防止重複輸出產生膨脹的分數。

    每個 n-gram 大小的修正精確度使用加權幾何平均值(預設等權重 0.25)組合。最後,應用簡短懲罰:如果候選比參考短,分數乘以 exp(1 - reference_length/candidate_length)。此懲罰防止模型透過產生非常短的高精確度輸出來利用該指標。最終 BLEU 分數是幾何平均精確度和簡短懲罰的乘積。

    Example Use Case

    一個微調客戶郵件摘要模型的團隊對照 500 份人工撰寫的摘要評估模型輸出。基礎模型達到 BLEU-4 分數 18.3,而微調模型達到 31.7——73% 的改善,與人類評估者偏好微調模型摘要的結果相關。他們還計算了 BERTScore 並運行 LLM 即評委評估來確認改善,在快速迭代期間使用 BLEU 作為快速檢驗。

    Key Takeaways

    • BLEU 衡量生成文字和參考文字之間的 n-gram 精確度重疊,分數從 0 到 1。
    • 它速度快、確定性強且可重複,是有用的基準評估指標。
    • BLEU 捕獲的是詞彙相似性而非語義含義——有效的改寫可能得到低分。
    • 簡短懲罰防止透過產生短而高精確度的輸出來利用指標。
    • 現代評估將 BLEU 與 BERTScore 和 LLM 即評委等語義指標結合使用。

    How Ertas Helps

    Ertas Studio 在其自動化評估指標中包含 BLEU,允許使用者快速評估微調模型輸出與參考回應的對比,並追蹤跨訓練輪次的品質改善。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.