ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
44 srcsignal 72%cycle 04:32

全部 · 2026-02-23

1 items · updated 3m ago
RSS live
2026-02-23 · 星期一2026年2月23日
11:00
63d ago
OpenAI 博客· rssEN11:00 · 02·23
OpenAI 为什么不再评估 SWE-bench Verified
OpenAI 表示其不再评估 SWE-bench Verified。当前可用信息只有文章标题,未提供正文,因此原因、时间点和替代评测方案都没有在原文中展开。
#Benchmarking#Code#OpenAI#SWE-bench Verified
精选理由
标题只确认 OpenAI 不再评估 SWE-bench Verified,原因、执行时间和替代 benchmark 都未披露。HKR-H 来自反常动作,HKR-R 来自基准可信度争议,但 HKR-K 缺关键事实;按 hard-exclusion-zero-sourcing 处理,分数封顶在 39 以下。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K0·R1

更多

频道

后台