ax radar — AI intelligence

11:00

63d ago

OpenAI 博客· rssEN11:00 · 02·23

OpenAI 为什么不再评估 SWE-bench Verified

OpenAI 表示其不再评估 SWE-bench Verified。当前可用信息只有文章标题，未提供正文，因此原因、时间点和替代评测方案都没有在原文中展开。

#Benchmarking#Code#OpenAI#SWE-bench Verified

精选理由

标题只确认 OpenAI 不再评估 SWE-bench Verified，原因、执行时间和替代 benchmark 都未披露。HKR-H 来自反常动作，HKR-R 来自基准可信度争议，但 HKR-K 缺关键事实；按 hard-exclusion-zero-sourcing 处理，分数封顶在 39 以下。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

全部 · 2026-02-23

更多

频道

后台