04:00
4d ago
FEATUREDarXiv · cs.LG· atomEN04:00 · 04·23
GRPO-VPS:用可验证过程监督改进 GRPO 推理训练
Jingyi Wang 等提出 GRPO-VPS,在数学任务上把 GRPO 准确率最高提升 2.6 点,并把推理长度最多压缩 13.7%。方法是在每个推理分段边界探测正确答案的条件概率,用可验证的分段进展信号细化轨迹级反馈;通用任务最高再增 2.4 点、长度降 4%。真正值得盯的是,它不用 critic、辅助模型或 Monte Carlo rollout,就给 GRPO 补上了中间步骤的信用分配。
#Reasoning#Alignment#Fine-tuning#Jingyi Wang
精选理由
这篇命中 HKR-K 和 HKR-R:它给出可验证的分段监督机制,数学任务最高提升 2.6 点、推理长度最多压缩 13.7%,还不依赖 critic、辅助模型或 Monte Carlo rollout。标题吸引力一般,当前也只有 arXiv 摘要级信息,实验设置和泛化边界未在摘录里展开,所以放在 featured 低位。
编辑点评
GRPO-VPS 把 GRPO 往前推了 2.6 点,但我更把它看成信用分配补丁,不是推理训练的新路线。
深度解读
GRPO-VPS 在可验证任务上换来了最高 2.6 点准确率提升和 13.7% 长度下降,我的判断是:这篇更像把 GRPO 从“只会看终局”拉回到“至少会看过程拐点”,补的是一个早就暴露的训练缺口,不是突然冒出来的新范式。
GRPO 这条线过去一年被捧得很高,核心卖点就是不用 critic,训练比 PPO 系更省,工程面也更干净。问题也一直很明显:同一条长推理轨迹里,前半段在铺路,后半段在跑偏,末端只给一个 outcome reward,梯度会把整条链子一起奖惩。结果就是两个老毛病:一是信用分配太糙,模型学不会到底哪一步有用;二是 overthinking,明明答案已经能收敛,模型还在继续写。GRPO-VPS 的动作不复杂:它不训练辅助奖励模型,也不做 Monte Carlo rollout,而是在分段边界探测“加上正确答案后,条件概率有没有上升”。这等于给每一段都塞了一个可验证的进展分数。这个想法我买账,因为它抓的正是 GRPO 最难受的那一刀。
我自己更在意两件事。第一,这个“过程监督”其实不是传统 PRM 那条路。去年大家在 process supervision 上折腾了很多,常见做法是人工步骤标注、训练 PRM 打分,或者用更强模型蒸馏中间步骤。那些方法的问题很一致:贵、脆、迁移差。GRPO-VPS 则绕开了“判断中间步骤是否好”的主观题,改问一个更硬的题:这一步之后,正确答案变得更像了吗。只要任务答案可验证,这个信号就成立。怎么说呢,这个转法挺聪明,因为它把过程监督从“语义评价”降成了“条件概率测量”。
第二,我对“不要额外模型”这层叙事要打个折。它确实没上 critic、没上 PRM、没跑 rollout,但它不是零成本。每个分段边界都要再做 probing,前向次数会上去。摘要没披露分段粒度、额外 FLOPs、wall-clock 开销,也没给训练吞吐变化。这个缺口不小。很多 RL 后训练方法 paper 里看着只加了一个小模块,落到集群上就是 20% 到 50% 的训练时延。我还没看到 PDF 里的消融,所以现在不能替它下“更高效”这个结论,只能说它把成本从模型侧挪到了推断探测侧。
这篇还有一个边界条件,不能装作没看见:它依赖正确答案可附加、可验证。数学题、代码题、规则明确的 QA 很合适。开放式写作、长时规划、产品决策这类任务就没这么顺。摘要说通用任务也有最高 2.4 点、长度降 4%,但正文片段没披露 benchmark 名称、验证器设计、答案格式约束,也没说“正确答案”在那些通用任务里是怎么定义的。如果所谓 general-domain 仍然是可判分问答,那外推到开放世界 agent 就要谨慎。我对这块有点怀疑,因为很多方法一离开 exact-match 或 unit-test 任务,优势就会迅速缩窄。
拿外部背景对一下,这篇的位置就更清楚了。DeepSeek 把 GRPO 这套训练叙事带火后,业内一直在找两种补丁:一种是补 reward,让终局信号更稳;一种是补 trace,让中间步骤别白白淹掉。GRPO-VPS 明显属于后者。它和 ReST、self-consistency、step-level verifier 这些工作有亲缘关系,但取舍更偏工程:不用再造一个会打分的老师,而是利用 base model 自己对正确答案的 belief 变化。这个思路的好处是简单,坏处是它默认了模型对“离正确答案更近”这件事已经有可读出的内部表征。要是 base model 本身 calibration 很差,probing 信号未必稳。摘要没披露不同基座模型的校准差异,也没说小模型和大模型谁收益更高,这个点我很想看。
我还想追问一个问题:长度下降 13.7% 到底是“少走弯路”,还是“更早停笔”。两者不是一回事。前者说明 credit assignment 真改善了。后者也可能只是模型更快学会短答风格,甚至有压缩推理链的副作用。去年不少 reasoning RL 论文都有这个坑,accuracy 和 token length 一起变化时,如果没有 pass@k、difficulty bucket、错误类型拆分,很难判断模型到底更会推理,还是更会收敛到模板化答案。这里摘要只给了总提升,没有给错误分布,我先保留一点疑心。
我整体是偏正面的。原因很简单:这篇没有假装解决 RLVR 的全部问题,它盯着 GRPO 一个具体缺陷下手,而且给出的机制是可复现的。只要你手里任务有标准答案,这种“边界 probing + 分段进展分数”很容易被抄进现有训练栈。可我不会把它吹成 reasoning 训练的下一站。它更像一块很实用的垫片,能让 GRPO 少犯一些粗糙错误。它能不能变成通用做法,得看三个正文还没给出的数:额外计算开销、分段策略敏感性、以及离开强验证任务后的衰减幅度。
HKR 分解
hook —knowledge ✓resonance ✓
80
SCORE
H0·K1·R1