Kimi K2.6
K2.5 創下開源權重紀錄
較舊的 Python 編程基準——164 道手寫的程式設計題,搭配隱藏測試套件。曾是標準的編程基準;如今普遍被視為已飽和且容易污染,前沿模型分數達 95% 以上。
HumanEval 是 OpenAI 於 2021 年發表、由 164 道手寫 Python 程式設計題組成的基準。每道題目提供函式簽名、描述函式應行為的 docstring,以及一組隱藏的測試套件。模型必須產生能通過測試套件的函式主體。此基準曾數年是標準的編程評估,至今仍被廣泛引用以作回溯比較。
到 2026 年,HumanEval 被認為已飽和且容易污染。前沿模型例行得到 95% 以上——Kimi K2.5 創 下了 99.0 的開源權重紀錄——而頂尖模型之間的差距由雜訊主導,而非真正的能力差異。原始題目也已直接或以重新表述的形式被納入許多訓練語料庫,使得污染在排行榜頂端成為相當大的疑慮。
每道題目提供函式簽名與 docstring。模型被要求產生函式主體。函式接著針對隱藏的測試套件執行,模型在該題的得分為二元——所有測試通過為 1,否則為 0。HumanEval 的綜合分數為通過所有測試的題目佔 164 題的百分比。
目前大多數評估使用「pass@1」計分——模型對每題產出一次嘗試,並針對測試套件評估該次嘗試。較早期的評估有時使用「pass@k」(多次嘗試,只要任一次通過即計為成功),但 pass@1 如今是跨報告比較的標準。
在 2026 年解讀 HumanEval 分數時應格外小心。前沿模型得 95% 至 99%,可能受惠於訓練資料污染與真實能力兼具——原始題目年代久遠且廣為發布,現今沒有任何模型是首次遇到它們。對於實務模型評估,SWE-Bench Verified 或 SWE-Bench Pro 才是真實世界編程能力更具意義的訊號。HumanEval 仍可作為健全性檢查(在 HumanEval 上得分低於 80% 的模型不太可能適用於正式編程環境)以及對舊有模型的回溯比較,但不應作為前沿模型選型的主要訊號。
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.