标签: Hugging Face | 小莫的博客园

小莫的博客园

小莫的博客园

记录一些可能有用的东西

社区驱动的评估（Community Evals）：为何我们不再信任 AI 厂商的官方榜单

AI

社区驱动的评估（Community Evals）：为何我们不再信任 AI 厂商的官方榜单

社区驱动的评估（Community Evals）：为何我们不再信任 AI 厂商的官方榜单引言：当“刷榜”成为常态在 2024 年和 2025 年，AI 领域最常见的口水战就是厂商之间的榜单博弈。每当一个新模型发布，它总是声称在 MML...

Community Evals：终结大模型榜单的“黑盒”时代

Technology

Community Evals：终结大模型榜单的“黑盒”时代

引言：当 benchmark 失去公信力2026 年初，AI 社区面临着一个尴尬的现状：主流的 benchmark 数据集几乎全线“沦陷”。MMLU 超过 91%，GSM8K 突破 94%，HumanEval 更是被各大模型反复刷新。...

SyGra Studio: 视觉化合成数据生成的新范式

Technology

SyGra Studio: 视觉化合成数据生成的新范式

引言：合成数据生成的透明化革命在人工智能领域，高质量的训练数据始终是模型性能的基石。然而，传统的合成数据生成流程往往伴随着复杂的 YAML 配置文件、繁琐的终端调试以及难以直观感知的生成质量。ServiceNow AI 最近推出的 S...