标签: Community Evals

AI

终结黑盒评价：Community Evals 与 AI 测评的民主化

终结黑盒评价：Community Evals 与 AI 测评的民主化引言：榜单焦虑与真实体验的背离在探讨了工业级 AI 的落地之后，一个核心问题浮出水面：在这个模型层出不穷的时代，我们该如何评价一个模型的真实水平？过去几年，我们...

Technology

引言：当 benchmark 失去公信力2026 年初，AI 社区面临着一个尴尬的现状：主流的 benchmark 数据集几乎全线“沦陷”。MMLU 超过 91%，GSM8K 突破 94%，HumanEval 更是被各大模型反复刷新。...