LiveBench

每月更新題目以抗污染的基準——題目取自當前時事與近期學術內容，降低前沿模型在訓練期間看過測試資料的風險。

General KnowledgeUpdated 2026-04-30

What It Measures

LiveBench 是一個抗污染的基準，涵蓋廣泛的能力面向：數學、推理、編程、指令遵循、語言與資料分析。其決定性特色是每月更新節奏——每月從近期來源（最新新聞、近期學術論文、近期修改的開源程式碼庫）加入新題目，並輪替移除舊題目。這使得 LiveBench 比固定基準更難透過納入訓練資料來作弊，因為測試集本身在時間上不斷向前推進。

隨著 MMLU 與 HumanEval 等傳統基準在 2024 至 2025 年間飽和並出現污染問題，LiveBench 成為評估前沿模型能力較為可信的替代方案之一。基準涵蓋的能力面向夠廣，使得 LiveBench 高分能成為有意義的通用智能訊號；而每月更新的節奏，也讓排行榜在新模型發表時格外具有參考價值。

How It Works

每個月會從前一個月的事件與內容中取材新題目。測試集進行輪替：超過固定時間窗口的舊題目被移除，並加入新題目。這意味著「LiveBench 分數」隱含一個時間戳——所報告的分數是針對該月評估時當下的測試集。不同時期的分數無法直接比較，不過該基準也會公布逐月趨勢資料。

計分方法將數學、推理、編程等各能力面向的結果彙整為綜合分數與分類別分數。在比較模型時，最常被引用的是綜合分數，但分類別分數可揭示特定模型的強項與弱項。

Current Leaders

How to Interpret Scores

LiveBench 分數普遍比舊有基準更能反映前沿模型的能力，因為其抗污染特性讓比較保持有意義。一個在 MMLU 上提升的模型，可能是真的進步，也可能受惠於訓練資料污染；而在 LiveBench 上提升的模型，較可能是真正在進步。截至 2026 年 4 月，LiveBench 整體領先者為 OpenAI 的 o3-mini，分數為 0.846，前沿封閉模型佔據排行榜首位。在開源權重模型中，頂尖層級（DeepSeek V4、Kimi K2.6、MiMo V2.5 Pro）分數頗具競爭力，但通常仍低於封閉模型的領先者。若要追蹤前沿，LiveBench 是最值得每月關注的單一基準之一。

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

LiveBench

What It Measures

How It Works

Current Leaders

DeepSeek V4

Kimi K2.6

MiMo V2.5 Pro

Qwen 3.6

GLM-5

How to Interpret Scores

Ship AI that runs on your users' devices.