LiveBench

每月刷新的抗污染基准——题目源自时事和近期学术内容，降低前沿模型在训练阶段已见过测试数据的风险。

General KnowledgeUpdated 2026-04-30

What It Measures

LiveBench 是一个抗污染的基准，覆盖广泛的能力领域：数学、推理、编程、指令跟随、语言和数据分析。其标志性特征是每月刷新的节奏——每月从最新来源（近期新闻、近期学术论文、近期修改的开源代码库）补充题目，老题目则被轮换出去。这使 LiveBench 比固定基准更难通过把测试数据纳入训练来 “刷分”，因为测试集随时间不断向前推移。

随着 MMLU 和 HumanEval 等传统基准在 2024–2025 年趋于饱和并易受污染，LiveBench 成为评估前沿模型能力较可信的替代品之一。该基准覆盖的能力领域足够多，强劲的 LiveBench 分数即是有意义的通用智能信号；而每月刷新使排行榜在新模型发布时尤具参考价值。

How It Works

每月会从前一个月的事件与内容中获取新题目。测试集会进行轮换：超过固定时间窗口的旧题目被剔除，新题目被加入。这意味着 “LiveBench 分数” 隐含一个时间戳——所报告的分数对应当月评估时的测试集。来自不同时期的分数不能直接比较，但该基准会公布逐月的趋势数据。

评分方法将各能力领域（数学、推理、编程等）的结果聚合为一个综合分数和分项分数。在比较模型时，最常引用的是综合分数，但分项分数能揭示模型特有的优势与短板。

Current Leaders

How to Interpret Scores

LiveBench 分数通常比旧基准更能反映前沿模型的能力，因为抗污染特性使比较更具意义。在 MMLU 上提升的模型可能是真实进步，也可能受益于训练数据污染；而在 LiveBench 上提升的模型更可能是真实进步。截至 2026 年 4 月，LiveBench 综合榜首是 OpenAI 的 o3-mini，得分 0.846，前沿闭源模型领跑。在开源权重模型中，第一梯队（DeepSeek V4、Kimi K2.6、MiMo V2.5 Pro）得分具有竞争力，但通常低于闭源领先者。要追踪前沿，LiveBench 是值得每月监控的最有用单一基准之一。

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

LiveBench

What It Measures

How It Works

Current Leaders

DeepSeek V4

Kimi K2.6

MiMo V2.5 Pro

Qwen 3.6

GLM-5

How to Interpret Scores

Ship AI that runs on your users' devices.