FEATURED量子位 · 公众号· rssZH03:47 · 04·27
斯坦福等团队搞了个“用大模型当验证器”的方法,在 Terminal-Bench 2.0 上跑分超过 Claude Mythos 和 GPT-5.5
斯坦福、伯克利和英伟达一起发了个叫 LLM-as-a-Verifier 的方案,简单说就是让一个大模型去检查另一个模型干活时的“解题步骤”,挑出最靠谱的那条路径。他们用了三招:打分细到 token 级别、同一件事反复查、把评判标准拆开看,最后在 Terminal-Bench 2.0 和 SWE-Bench Verified 两个榜单上都拿了第一。其中 ...
#Agent#Reasoning#Benchmarking#Stanford University
精选理由
我会先打个折:这还是个基准测试的研究发布,不是模型或产品大更新,所以分数放在这个区间。但钩子够强——斯坦福、伯克利、英伟达联名,Transformer作者转发,验证智能体这件事本身又是当前工程落地的痛点。信息量也扎实,token级评分、重复验证、标准分解这些机制都给了具体数字,不是空泛的“新框架”。读者看完能立刻判断要不要跟进实验。
一句话点评
斯坦福让一个大模型当“判卷老师”去检查另一个模型的解题步骤,在两项测试里拿了第一,但正文没披露具体验证环境和成本。
锐评
这个方案的核心思路不复杂:让一个大模型去当“判卷老师”,检查另一个模型干活时的每一步推理,挑出最靠谱的那条路径。他们用了三招——打分细到每个 token、同一件事反复查、把评判标准拆开看,最后在 Terminal-Bench 2.0 和 SWE-Bench Verified 两个榜单上都拿了第一,其中 ForgeCode 准确率到了 86.4%。
不过原文因为环境异常没加载出完整内容,关键信息是缺的:反复查会多烧多少算力、延迟增加多少、验证模型本身会不会出错,这些都没法确认。榜单第一听着漂亮,但如果验证成本比干活模型还高,实际落地就得打个问号。另外,两个测试集能不能代表真实开发场景,也需要看具体任务分布。
我会先打个折:思路对,但没看到成本账和失败案例之前,别急着当通用解法。
HKR 分解
hook ✓knowledge ✓resonance ✓