新FEATUREDAI HOT 精选· aihot-apiZH00:44 · 06·09
FrontierCode 基准测试:AI 编程评估新标准,最高审核通过率仅 13.4%
Cognition 发布 FrontierCode,用 20 多位开源维护者制作的 150 个任务和 3000 多条规则评估代码,Claude Opus 4.8 最高难度档通过率为 13.4%。
#Code#Benchmarking#Cognition#Claude Opus 4.8
精选理由
FrontierCode 有明确任务规模、审核机制和低通过率,HKR 三项都成立;它是代码 Agent 评测的高信号材料,但目前只是单源发布,未到同日必写的大模型发布级别。
一句话点评
FrontierCode 把代码模型的遮羞布掀开了:Claude Opus 4.8 最高档也只有 13.4%,SWE-Bench 高分不等于可合并代码。
锐评
FrontierCode 的刀口很准:它不问代码能不能过测试,而问维护者敢不敢合并。150 个任务由 20 多位开源维护者制作,每个任务耗时 40+ 小时,再用 3000 多条规则审核;Claude Opus 4.8 最高难度档只有 13.4%,GPT-5.5 只有 6.3%,其余模型在 1%-5%。
我买这个评估方向。SWE-Bench 把很多模型训练成“修到测试绿”,但开源维护看的是边界条件、风格、长期可维护性和 review 成本。Cognition 自己做编码 agent,发布 benchmark 有立场,这点要扣一分;但维护者审核通过率这个指标,比单元测试通过率更接近企业里真花钱的那一环。
HKR 分解
hook ✓knowledge ✓resonance ✓