终结黑盒评价:Community Evals 与 AI 测评的民主化引言:榜单焦虑与真实体验的背离在 探讨了工业级 AI 的落地 之后,一个核心问题浮出水面:在这个模型层出不穷的时代,我们该如何评价一个模型的真实水平? 过去几年,我们...
Community Evals:终结大模型榜单的“黑盒”时代
引言:当 benchmark 失去公信力2026 年初,AI 社区面临着一个尴尬的现状:主流的 benchmark 数据集几乎全线“沦陷”。MMLU 超过 91%,GSM8K 突破 94%,HumanEval 更是被各大模型反复刷新。...