04:00
7d ago
● P1arXiv · cs.LG· atomEN04:00 · 04·21
更少噪声,更多表达:通过指令净化做推理强化学习
Yiju Guo 等提出 LENS,用指令净化提升 RLVR 推理训练,在数学推理上平均提升 3.88%,收敛速度超 1.6×。其机制是先识别并移除会干扰探索的 prompt token,再把净化过程中的成功 rollout 迁回原始噪声提示做策略优化。真正值得盯的是它把低采样成功率归因到少量干扰 token,而非任务本身更难;正文未披露具体基座模型与数据规模。
#Reasoning#Fine-tuning#Yiju Guo#Yankai Lin
精选理由
HKR-H/K/R 都成立:角度新,且摘要给出 +3.88%、1.6× 收敛和两段式机制。它对做推理微调的人有讨论价值,但当前是 arXiv 论文,正文摘录未披露基座模型与数据规模,影响力先放在 78–84 档。
编辑点评
论文报告 LENS 在数学推理提升 3.88%。我看这更像在修 RLVR 的提示脆弱性,不是在抬高推理上限。
深度解读
论文把数学推理平均分数提高了 3.88%,收敛速度提高超 1.6 倍。这个结果如果能复现,价值不在“又多一个 RL 配方”,而在它把很多人默认吞下去的噪声,单独拎出来处理了。作者的判断很直接:采样失败常常不是题更难,而是 prompt 里少量 token 把探索带偏了。我挺认这个方向,因为过去一年大家做 RLVR,默认前提一直太乐观:题面固定、奖励可验,剩下就是多 roll 几次、调 advantage、调 KL。LENS 说不是,前端提示污染本身就在吃 rollout 预算。
这条和 2025 年那波 GRPO 热潮能接上。DeepSeek-R1 把 GRPO 带火后,很多复现都发现一个尴尬点:同一题,模板换几句口吻,成功率会掉,训练曲线会抖。公开讨论里,大家更常把锅甩给 reward sparsity、长度偏置、verifier 误差。LENS 往前追了一步,直接问“是不是 prompt token 在干扰探索”。这个切法我觉得是对的,因为 RLVR 训练里,模型面对的不是纯净 benchmark,而是拼接过 system、instruction、format constraint 的长提示。你不先处理输入噪声,后面再精调采样器,很多时候只是拿更贵的 compute 去补前面的脏活。
我也有保留。正文这里只有摘要,基座模型、参数规模、数据量、rollout budget、干扰 token 的识别方式都没披露。没有这些,3.88% 和 1.6× 还很难判断硬度。要是基线只是原始 GRPO,提升并不奇怪;如果对手已经用了 response filtering、difficulty curriculum、best-of-n sampling,结论才更扎实。还有一个关键问题,摘要没说净化是不是要额外跑一个识别器,或多一次搜索过程。训练步数变少,不等于总算力更省;这两件事在 RL 论文里经常被混着讲。
我还担心一件更实际的事:它把“成功 rollout 迁回原始噪声提示”当监督信号,这很像一种针对 prompt 扰动的蒸馏。好处是模型学会忽略杂音,坏处是模型也可能顺手忽略有用约束。比如格式要求、工具调用边界、安全限制,这些在 token 层面也常常像“干扰项”。如果净化规则分不清“无关修饰”和“必要约束”,最后训出来的策略会更敢答,但不一定更守规矩。这个风险在数学题上不明显,放到科学推理和真实 agent 任务里就会冒头。
我一直觉得,推理后训练接下来会分成两条线。一条继续堆更强 verifier,把奖励做密。另一条就是这种输入侧整理,把探索空间先收窄。LENS 明显属于后者,而且比“改个 prompt 模板”更系统一点。可它离通用方法还有距离。标题已经给出 ACL 2026 和平均增益,正文没披露最关键的泛化证据:换模型是否成立,换任务是否成立,尤其换到代码、工具使用、长上下文 agent 是否还成立。没有这些,我不会把它看成 RLVR 的新标准件。我会把它当一个很有用的提醒:很多所谓 reasoning gain,先别急着归功于 RL,本来就是输入清洗没做干净。
HKR 分解
hook ✓knowledge ✓resonance ✓
85
SCORE
H1·K1·R1