AI 终结黑盒评价:Community Evals 与 AI 测评的民主化 终结黑盒评价:Community Evals 与 AI 测评的民主化引言:榜单焦虑与真实体验的背离在 探讨了工业级 AI 的落地 之后,一个核心问题浮出水面:在这个模型层出不穷的时代,我们该如何评价一个模型的真实水平? 过去几年,我们...