OpenAI 博客· rssEN11:00 · 02·23
OpenAI 为什么不再评估 SWE-bench Verified
OpenAI 表示其不再评估 SWE-bench Verified。当前可用信息只有文章标题,未提供正文,因此原因、时间点和替代评测方案都没有在原文中展开。
#Benchmarking#Code#OpenAI#SWE-bench Verified
精选理由
标题只确认 OpenAI 不再评估 SWE-bench Verified,原因、执行时间和替代 benchmark 都未披露。HKR-H 来自反常动作,HKR-R 来自基准可信度争议,但 HKR-K 缺关键事实;按 hard-exclusion-zero-sourcing 处理,分数封顶在 39 以下。
HKR 分解
hook ✓knowledge —resonance ✓