23:54
13d ago
● P1arXiv · cs.CL· atomEN23:54 · 04·13
从计划到行动:Agent 到底有多遵守计划?
该论文分析 SWE-agent 在 SWE-bench Verified 和 Pro 上的 16,991 条轨迹,检验编程代理按计划执行的程度。结果称标准计划能提升问题解决率,周期性计划提醒可减少违例并提高成功率;劣质计划比不给计划更伤性能。真正该盯的是对齐缺口:摘要未披露 4 个 LLM 名称、8 种计划变体的具体增益。
#Agent#Code#Benchmarking#SWE-agent
精选理由
这是有实务含量的 agent 研究:作者在 SWE-bench Verified 和 Pro 上分析 16,991 条轨迹,把“代理是否按计划执行”量化,还给出“坏计划比没计划更差”的可用结论。HKR 三项都成立,但摘要未披露 4 个模型名与 8 种变体的具体增益,分数不到 P1。
编辑点评
论文统计 16991 条 SWE-agent 轨迹后给出一个不太舒服的结论:很多 agent 不是在执行计划,只是在撞上训练里背过的工作流。
深度解读
论文拿 16991 条 SWE-agent 轨迹去测“按计划执行”这件事,我的判断很直接:这不是一个 prompt engineering 小修小补的问题,这是当前代码 agent 评测口径里的一个洞。你看到任务做成了,不等于它按你要求的策略做成了。摘要已经给了一个很硬的信号:标准计划能提成功率,周期性提醒能降违例,差计划比没计划更伤。光这三点,就足够把一批“agent 会自主规划”的宣传语往下压一截。
我一直觉得,SWE-bench 这类基准最容易被混淆的,是“会修题”跟“会工作”根本不是一回事。很多模型在 repo 导航、定位文件、写 patch、跑验证这套流程上,早就从训练数据、公开 issue、以往 agent 轨迹里吃进了隐含模板。论文这里把“不给计划时会退回内部化工作流”说得很明白,这跟过去一年大家对 ReAct、AutoGPT、SWE-agent 的直觉其实对得上:轨迹看起来很像在推理,里面常常混着大量惯性动作。你让它写计划,它未必照做;你让它别跳步,它也未必真不跳。
有意思的地方在于,作者说“早期加入更多任务相关阶段”反而会拉低表现。这个结论我买账,而且不意外。Claude、GPT 系代码模型近几代都表现出一个共性:它们对高层流程提示有用,但对过细、过硬的阶段约束会出现对抗。计划一旦和模型内部已经学到的求解顺序不一致,模型就会边走边绕,最后既没守计划,也把 token 和工具调用浪费掉。去年不少团队在内部 agent 评测里也碰到过类似现象——加 checklist 后,日志更漂亮,成功率不一定更高。我没看到这篇正文,没法核对它是不是也把“日志更规整”和“真实更有效”分开算了。
我对这条还有两个保留。第一,摘要没披露 4 个 LLM 名称,也没披露 8 种计划变体各自增益,这很关键。要是提升主要来自较弱模型,结论会更像“计划在补模型能力短板”;要是强模型也稳定吃到增益,才更接近“计划服从本身可训练”。第二,SWE-agent 的环境固定、工具链固定,外推到浏览器 agent、research agent、多 agent 协作,我不敢直接认。代码修复任务的 phase structure 天然清楚,别的任务没这么整齐。
说真的,这篇论文刺中的不是“该不该写更好的计划”,而是训练目标写错了。过去很多 agent 方案默认模型先天会 obey,再靠提示词把路线图塞进去。作者给的方向更靠谱:别把任务流程硬编码进模型,先把“收到计划后稳定遵守、偏离后能拉回”训练出来。这让我想起去年一些 process supervision 和 outcome supervision 的争论——只盯最终 patch 过不过测试,模型完全可以学会投机。计划服从如果能被量化,agent 评测才算开始从结果主义往过程可审计走。现在信息还不够,我还没法判断这篇是不是方法学上的大推进;但它至少把一个大家默认跳过的问题,正式摆到台面上了。
HKR 分解
hook ✓knowledge ✓resonance ✓
86
SCORE
H1·K1·R1