FEATUREDr/LocalLLaMA· rssEN07:19 · 05·16
Qwen3.6-35B-A3B 和 9B 登上 Terminal-Bench 2.0 公榜
little-coder × Qwen3.6-35B-A3B 在 Terminal-Bench 2.0 得到 24.6%±3.2,高于 Gemini 2.5 Pro on Gemini CLI 的 19.6% 和 Qwen3-Coder-480B on Terminus 2 的 23.9%。
#Agent#Code#Benchmarking#Qwen
精选理由
HKR 三项都命中,但来源是 Reddit 单帖,正文只给排行榜分数,未披露测试配置与复现细节;作为代码 Agent 基准更新可精选,不能进 78+。
一句话点评
35B-A3B 跑到 24.6% 后,开源 agent 竞赛的瓶颈不像只在模型,scaffold 的杠杆开始压过参数崇拜。
锐评
Qwen3.6-35B-A3B 这次把开源 agent 的脸打亮了,但别急着把功劳全给模型。little-coder × Qwen3.6-35B-A3B 在 Terminal-Bench 2.0 拿到 24.6%±3.2,高过 Gemini 2.5 Pro on Gemini CLI 的 19.6%,也压过 Qwen3-Coder-480B on Terminus 2 的 23.9%。这组数最刺眼的不是 24.6%,而是 35B-A3B 配 scaffold 能越过 480B 组合。Terminal-Bench 这种终端任务吃规划、工具调用和恢复能力,单模型分数会误导判断。9B 只有 9.2%,也提醒别把“本地小模型可用”吹过头;可测量不等于可托付。
HKR 分解
hook ✓knowledge ✓resonance ✓