标签: Model Evaluation

Technology

Community Evals：终结大模型榜单的“黑盒”时代

引言：当 benchmark 失去公信力2026 年初，AI 社区面临着一个尴尬的现状：主流的 benchmark 数据集几乎全线“沦陷”。MMLU 超过 91%，GSM8K 突破 94%，HumanEval 更是被各大模型反复刷新。...