LiveBench

    每月更新題目以抗污染的基準——題目取自當前時事與近期學術內容,降低前沿模型在訓練期間看過測試資料的風險。

    General KnowledgeUpdated 2026-04-30

    What It Measures

    LiveBench 是一個抗污染的基準,涵蓋廣泛的能力面向:數學、推理、編程、指令遵循、語言與資料分析。其決定性特色是每月更新節奏——每月從近期來源(最新新聞、近期學術論文、近期修改的開源程式碼庫)加入新題目,並輪替移除舊題目。這使得 LiveBench 比固定基準更難透過納入訓練資料來作弊,因為測試集本身在時間上不斷向前推進。

    隨著 MMLU 與 HumanEval 等傳統基準在 2024 至 2025 年間飽和並出現污染問題,LiveBench 成為評估前沿模型能力較為可信的替代方案之一。基準涵蓋的能力面向夠廣,使得 LiveBench 高分能成為有意義的通用智能訊號;而每月更新的節奏,也讓排行榜在新模型發表時格外具有參考價值。

    How It Works

    每個月會從前一個月的事件與內容中取材新題目。測試集進行輪替:超過固定時間窗口的舊題目被移除,並加入新題目。這意味著「LiveBench 分數」隱含一個時間戳——所報告的分數是針對該月評估時當下的測試集。不同時期的分數無法直接比較,不過該基準也會公布逐月趨勢資料。

    計分方法將數學、推理、編程等各能力面向的結果彙整為綜合分數與分類別分數。在比較模型時,最常被引用的是綜合分數,但分類別分數可揭示特定模型的強項與弱項。

    Current Leaders

    How to Interpret Scores

    LiveBench 分數普遍比舊有基準更能反映前沿模型的能力,因為其抗污染特性讓比較保持有意義。一個在 MMLU 上提升的模型,可能是真的進步,也可能受惠於訓練資料污染;而在 LiveBench 上提升的模型,較可能是真正在進步。截至 2026 年 4 月,LiveBench 整體領先者為 OpenAI 的 o3-mini,分數為 0.846,前沿封閉模型佔據排行榜首位。在開源權重模型中,頂尖層級(DeepSeek V4、Kimi K2.6、MiMo V2.5 Pro)分數頗具競爭力,但通常仍低於封閉模型的領先者。若要追蹤前沿,LiveBench 是最值得每月關注的單一基準之一。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.