FEATURED新智元 · 公众号· rssZH04:12 · 05·08
用 token 级价值函数控制回答长度,3B 模型在长度控制上跑赢 GPT-5.4 和 Claude
加州大学圣塔芭芭拉分校和苹果的研究人员搞了个叫 LenVM 的方法,把“还剩多少 token 要生成”建模成一个 token 级别的价值函数,相当于给模型装了个实时字数进度条。他们拿 Qwen2.5-3B 搭配一个 1.5B 的 LenVM 去测 LIFEBench 的长度控制任务,得分 62.6,而 GPT-5.4 只有 37.4,Claude-Op...
#Inference-opt#Reasoning#Benchmarking#UC Santa Barbara
精选理由
我会先打个折:正文没披露 GPT-5.4 的具体版本和测试条件,这点先别太激动。但 LenVM 的思路很实用——把“还要写多长”变成一个 token 级的值函数,让 Qwen2.5-3B 搭配一个 1.5B 的小模型就能在长度控制上大幅领先大模型。LIFEBench 长度得分 62.6 比 GPT-5.4 的 37.4 高出不少,说明在特定任务上小模型加对方法可以很省钱。对做推理优化和想摆脱闭源模型绑定的团队来说,这是个值得跟的信号。
一句话点评
3B小模型在控制回答长度上跑赢GPT-5.4和Claude,但正文被微信验证页挡了,看不到具体怎么测的,先打个折。
锐评
这条消息说加州大学圣塔芭芭拉分校和苹果搞了个叫LenVM的方法,给模型装了个“还剩多少token要生成”的实时进度条,让Qwen2.5-3B搭配一个1.5B的LenVM,在LIFEBench长度控制任务上拿了62.6分,而GPT-5.4只有37.4,Claude-Opus-4-6是35.5。如果数字属实,说明用很小的模型就能把“写多长”这件事管得很准,比大模型更听话,成本也低得多。
但问题在于,原文链接被微信验证页挡住了,正文完全看不到。LIFEBench这个基准具体测什么场景、怎么打分、误差容忍度是多少,都没披露。62.6分到底意味着“基本能用”还是“偶尔翻车”,没法判断。另外,LenVM是外挂模块还是训练时植入的,推理时会不会拖慢速度,这些关键细节也缺失。
这条信息值得关注,但得等看到完整论文或技术报告再下结论。如果只是某个窄任务上的单项领先,就别急着说“击败”。
HKR 分解
hook ✓knowledge ✓resonance ✓