LiveBench

    每月刷新的抗污染基准——题目源自时事和近期学术内容,降低前沿模型在训练阶段已见过测试数据的风险。

    General KnowledgeUpdated 2026-04-30

    What It Measures

    LiveBench 是一个抗污染的基准,覆盖广泛的能力领域:数学、推理、编程、指令跟随、语言和数据分析。其标志性特征是每月刷新的节奏——每月从最新来源(近期新闻、近期学术论文、近期修改的开源代码库)补充题目,老题目则被轮换出去。这使 LiveBench 比固定基准更难通过把测试数据纳入训练来 “刷分”,因为测试集随时间不断向前推移。

    随着 MMLU 和 HumanEval 等传统基准在 2024–2025 年趋于饱和并易受污染,LiveBench 成为评估前沿模型能力较可信的替代品之一。该基准覆盖的能力领域足够多,强劲的 LiveBench 分数即是有意义的通用智能信号;而每月刷新使排行榜在新模型发布时尤具参考价值。

    How It Works

    每月会从前一个月的事件与内容中获取新题目。测试集会进行轮换:超过固定时间窗口的旧题目被剔除,新题目被加入。这意味着 “LiveBench 分数” 隐含一个时间戳——所报告的分数对应当月评估时的测试集。来自不同时期的分数不能直接比较,但该基准会公布逐月的趋势数据。

    评分方法将各能力领域(数学、推理、编程等)的结果聚合为一个综合分数和分项分数。在比较模型时,最常引用的是综合分数,但分项分数能揭示模型特有的优势与短板。

    Current Leaders

    How to Interpret Scores

    LiveBench 分数通常比旧基准更能反映前沿模型的能力,因为抗污染特性使比较更具意义。在 MMLU 上提升的模型可能是真实进步,也可能受益于训练数据污染;而在 LiveBench 上提升的模型更可能是真实进步。截至 2026 年 4 月,LiveBench 综合榜首是 OpenAI 的 o3-mini,得分 0.846,前沿闭源模型领跑。在开源权重模型中,第一梯队(DeepSeek V4、Kimi K2.6、MiMo V2.5 Pro)得分具有竞争力,但通常低于闭源领先者。要追踪前沿,LiveBench 是值得每月监控的最有用单一基准之一。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.