Technology Community Evals:终结大模型榜单的“黑盒”时代 引言:当 benchmark 失去公信力2026 年初,AI 社区面临着一个尴尬的现状:主流的 benchmark 数据集几乎全线“沦陷”。MMLU 超过 91%,GSM8K 突破 94%,HumanEval 更是被各大模型反复刷新。...