What is BLEU分数?

一种通过衡量生成输出与一个或多个人类参考文本之间的n-gram重叠来评估机器生成文本质量的指标。

Definition

BLEU（双语评估替代）是一种自动文本评估指标，最初为机器翻译开发，通过衡量生成文本（候选）与一个或多个参考文本之间n-gram匹配的精确率来评分。分数范围从0到1（通常表示为0-100），其中1表示与参考文本完全重叠。BLEU在多个n-gram级别（默认为unigram到4-gram）计算精确率，使用几何平均值组合，然后应用简短惩罚来惩罚比参考文本短的输出。

尽管BLEU是为机器翻译设计的，但它已被广泛用作通用文本生成指标。它常用于评估文本摘要、改写、代码生成和对话系统。然而，其局限性已被充分记录：BLEU衡量的是表面级的词汇重叠，而非语义相似性，这意味着一个词汇选择完全不同的完美有效改写可能获得低BLEU分数，而一个词汇相似但语义错误的文本可能获得高分。

在LLM时代，BLEU越来越多地被基于模型的评估指标补充或替代，如BERTScore（使用上下文嵌入进行语义相似性计算）和LLM-as-judge方法（使用强大的模型评价生成文本的质量）。尽管如此，BLEU仍被广泛报告，因为它计算速度快、确定性强、可复现且被广泛理解——使其成为与更复杂评估方法并用的有效基线指标。

Why It Matters

自动评估指标对于模型开发过程中的快速迭代至关重要。手动评估每个模型输出在时间和成本上都是不可行的，特别是在比较多种训练配置时。BLEU提供即时、可复现的质量信号，对许多生成任务与人类判断有合理的相关性。

对于基准测试和研究，BLEU的确定性特质使其在可复现比较中非常有价值。两个团队在同一测试集上评估不同模型会得到相同的BLEU分数，从而实现有意义的比较。这种可复现性加上数十年的应用记录，解释了为什么BLEU在大多数NLP论文中会与更新的指标一起被报告。

How It Works

BLEU计算涉及几个步骤。首先，为每个n-gram大小（默认为1到4）计算n-gram精确率。对于每个n-gram大小，候选文本中出现在参考文本中的n-gram数量除以候选文本中的n-gram总数。裁剪机制确保每个参考n-gram最多匹配一次，防止重复输出导致分数虚高。

各n-gram大小的修正精确率使用加权几何平均值组合（默认等权重0.25）。最后，应用简短惩罚：如果候选文本比参考文本短，分数乘以exp(1 - reference_length/candidate_length)。这个惩罚防止模型通过产生非常短的高精确率输出来操纵指标。最终BLEU分数是几何平均精确率和简短惩罚的乘积。

Example Use Case

一个团队针对客户邮件摘要微调模型，将模型输出与500份人工撰写的摘要进行对比评估。基础模型的BLEU-4分数为18.3，而微调模型达到31.7——提高了73%，这与人类评估者对微调模型摘要的偏好一致。他们还计算BERTScore并运行LLM-as-judge评估来确认改进，在快速迭代期间使用BLEU作为快速检验。