全部

▸ 200 items · updated 3m ago

按日期浏览4839 项 · 58 天

2026年2月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 262 2722 285

2026年3月

一二三四五六日

13 22 35 44 519 616 71 81 97 109 117 126 137 14 15 167 1711 1844 1984 2069 2132 2241 2375 2477 2579 2670 2756 2824 2932 3058 3185

2026年4月

一二三四五六日

198 2101 379 432 535 691 7126 8129 9112 1087 1142 1271 13159 14140 15122 16246 1781 1853 1960 20347 21687 22363 23348 24256 259 26 275282930

2026-04-23 · 星期四2026年4月23日

04:00

4d ago

FEATUREDarXiv · cs.LG· atomEN04:00 · 04·23

GRPO-VPS：用可验证过程监督改进 GRPO 推理训练

Jingyi Wang 等提出 GRPO-VPS，在数学任务上把 GRPO 准确率最高提升 2.6 点，并把推理长度最多压缩 13.7%。方法是在每个推理分段边界探测正确答案的条件概率，用可验证的分段进展信号细化轨迹级反馈；通用任务最高再增 2.4 点、长度降 4%。真正值得盯的是，它不用 critic、辅助模型或 Monte Carlo rollout，就给 GRPO 补上了中间步骤的信用分配。

#Reasoning#Alignment#Fine-tuning#Jingyi Wang

精选理由

这篇命中 HKR-K 和 HKR-R：它给出可验证的分段监督机制，数学任务最高提升 2.6 点、推理长度最多压缩 13.7%，还不依赖 critic、辅助模型或 Monte Carlo rollout。标题吸引力一般，当前也只有 arXiv 摘要级信息，实验设置和泛化边界未在摘录里展开，所以放在 featured 低位。

编辑点评

GRPO-VPS 把 GRPO 往前推了 2.6 点，但我更把它看成信用分配补丁，不是推理训练的新路线。

深度解读

GRPO-VPS 在可验证任务上换来了最高 2.6 点准确率提升和 13.7% 长度下降，我的判断是：这篇更像把 GRPO 从“只会看终局”拉回到“至少会看过程拐点”，补的是一个早就暴露的训练缺口，不是突然冒出来的新范式。 GRPO 这条线过去一年被捧得很高，核心卖点就是不用 critic，训练比 PPO 系更省，工程面也更干净。问题也一直很明显：同一条长推理轨迹里，前半段在铺路，后半段在跑偏，末端只给一个 outcome reward，梯度会把整条链子一起奖惩。结果就是两个老毛病：一是信用分配太糙，模型学不会到底哪一步有用；二是 overthinking，明明答案已经能收敛，模型还在继续写。GRPO-VPS 的动作不复杂：它不训练辅助奖励模型，也不做 Monte Carlo rollout，而是在分段边界探测“加上正确答案后，条件概率有没有上升”。这等于给每一段都塞了一个可验证的进展分数。这个想法我买账，因为它抓的正是 GRPO 最难受的那一刀。我自己更在意两件事。第一，这个“过程监督”其实不是传统 PRM 那条路。去年大家在 process supervision 上折腾了很多，常见做法是人工步骤标注、训练 PRM 打分，或者用更强模型蒸馏中间步骤。那些方法的问题很一致：贵、脆、迁移差。GRPO-VPS 则绕开了“判断中间步骤是否好”的主观题，改问一个更硬的题：这一步之后，正确答案变得更像了吗。只要任务答案可验证，这个信号就成立。怎么说呢，这个转法挺聪明，因为它把过程监督从“语义评价”降成了“条件概率测量”。第二，我对“不要额外模型”这层叙事要打个折。它确实没上 critic、没上 PRM、没跑 rollout，但它不是零成本。每个分段边界都要再做 probing，前向次数会上去。摘要没披露分段粒度、额外 FLOPs、wall-clock 开销，也没给训练吞吐变化。这个缺口不小。很多 RL 后训练方法 paper 里看着只加了一个小模块，落到集群上就是 20% 到 50% 的训练时延。我还没看到 PDF 里的消融，所以现在不能替它下“更高效”这个结论，只能说它把成本从模型侧挪到了推断探测侧。这篇还有一个边界条件，不能装作没看见：它依赖正确答案可附加、可验证。数学题、代码题、规则明确的 QA 很合适。开放式写作、长时规划、产品决策这类任务就没这么顺。摘要说通用任务也有最高 2.4 点、长度降 4%，但正文片段没披露 benchmark 名称、验证器设计、答案格式约束，也没说“正确答案”在那些通用任务里是怎么定义的。如果所谓 general-domain 仍然是可判分问答，那外推到开放世界 agent 就要谨慎。我对这块有点怀疑，因为很多方法一离开 exact-match 或 unit-test 任务，优势就会迅速缩窄。拿外部背景对一下，这篇的位置就更清楚了。DeepSeek 把 GRPO 这套训练叙事带火后，业内一直在找两种补丁：一种是补 reward，让终局信号更稳；一种是补 trace，让中间步骤别白白淹掉。GRPO-VPS 明显属于后者。它和 ReST、self-consistency、step-level verifier 这些工作有亲缘关系，但取舍更偏工程：不用再造一个会打分的老师，而是利用 base model 自己对正确答案的 belief 变化。这个思路的好处是简单，坏处是它默认了模型对“离正确答案更近”这件事已经有可读出的内部表征。要是 base model 本身 calibration 很差，probing 信号未必稳。摘要没披露不同基座模型的校准差异，也没说小模型和大模型谁收益更高，这个点我很想看。我还想追问一个问题：长度下降 13.7% 到底是“少走弯路”，还是“更早停笔”。两者不是一回事。前者说明 credit assignment 真改善了。后者也可能只是模型更快学会短答风格，甚至有压缩推理链的副作用。去年不少 reasoning RL 论文都有这个坑，accuracy 和 token length 一起变化时，如果没有 pass@k、difficulty bucket、错误类型拆分，很难判断模型到底更会推理，还是更会收敛到模板化答案。这里摘要只给了总提升，没有给错误分布，我先保留一点疑心。我整体是偏正面的。原因很简单：这篇没有假装解决 RLVR 的全部问题，它盯着 GRPO 一个具体缺陷下手，而且给出的机制是可复现的。只要你手里任务有标准答案，这种“边界 probing + 分段进展分数”很容易被抄进现有训练栈。可我不会把它吹成 reasoning 训练的下一站。它更像一块很实用的垫片，能让 GRPO 少犯一些粗糙错误。它能不能变成通用做法，得看三个正文还没给出的数：额外计算开销、分段策略敏感性、以及离开强验证任务后的衰减幅度。

HKR 分解

hook —knowledge ✓resonance ✓

全部

更多

频道

后台