FEATURED新智元 · 公众号· rssZH04:49 · 05·10
大模型预测太短视?Next-ToBE 让模型多看几步,ICLR 2026 新方法在 36 项测试里赢了 35 次
华东师大和复旦的研究者发现,现在大模型训练时只盯着“下一个词”来猜,容易让模型变得自信但目光短浅。他们提出 Next-ToBE,训练时给模型一个“软目标”,让它同时参考未来几个词的信息,但推理时不用改,还是正常的逐词生成。在 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B 和 Llama3.1-8B-Instruct 上跑了 36 ...
#Reasoning#Fine-tuning#Benchmarking#East China Normal University
精选理由
这篇论文的卖点很清晰:不碰模型结构,只把训练时“猜下一个词”的目标换成“看未来一小段窗口的软目标”,就在36组实验里赢了35组。我会先打个折——正文没披露用了多大的模型、什么规模的数据,也没给复现细节或生产环境的验证,所以目前只能当学术信号看。如果是真的,这种改目标不改架构的思路确实省钱,但别急着把它当成下一个训练范式。
一句话点评
训练时让模型多看未来几个词,推理不用改,36项实验里35项最佳,但正文没披露具体任务类型和提升幅度。
锐评
这篇研究瞄准的是大模型训练里一个老问题:只盯着“下一个词”预测,模型容易学得短视,对全局理解不够。华东师大和复旦团队提出的 Next-ToBE,做法是在训练阶段给模型一个“软目标”,让它同时参考未来几个词的信息,但推理时完全不动,还是正常的逐词生成。这个思路的好处是零推理成本增加,部署不用改任何东西。
他们在 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B 和 Llama3.1-8B-Instruct 上跑了 36 项实验,声称 35 项拿了最佳。这个数字看着很漂亮,但我会先打个折——正文因为环境验证问题没加载出来,具体是什么任务、对比了哪些基线、提升幅度有多大,这些关键信息都看不到。数学题、代码生成还是通用对话,不同场景下的“最佳”含金量差很多。
另外,软目标窗口设多大、训练开销增加多少、在小模型上效果好能不能放大到更大规模,这些都没法从现有摘要里判断。如果后续能补上任务明细和消融实验,这个方法的实用价值会更清楚。
HKR 分解
hook ✓knowledge ✓resonance —