23:29
12d ago
● P1arXiv · cs.CL· atomEN23:29 · 04·14
多语言模型同伴预测自训练改进数学推理
论文提出 Peer-Predictive Self-Training,让多个语言模型用跨模型聚合答案做无标注微调信号,在数学推理基准上把准确率提升 2.2 到 4.3 个百分点。方法按顺序生成回答,用 PMI 衡量中间回答对聚合答案的信息量,并按该分数调整更新强度;在 SimulEq、Math500、MultiArith 上,Gemma-2-2B、LLaMA-3.2-1B、Qwen-2.5-1.5B 的 GV-Gap 下降 26% 到 40%。真正值得盯的是,它不依赖外部监督,也没有 teacher-student 层级,训练信号只来自模型间交互。
#Reasoning#Fine-tuning#Benchmarking#Gemma
精选理由
这篇论文有明确的新机制:多个模型顺序作答,用 PMI 衡量中间答案的信息量,再把聚合答案变成无标注微调信号,在 3 个数学基准上提升 2.2–4.3 个百分点。HKR 三项成立,但它仍是研究论文,不是模型或产品发布,传播面会集中在后训练圈层,所以给 78 分、featured。
编辑点评
PST 在 3 个数学基准上把 3 个小模型准确率拉高了 2.2 到 4.3 个百分点,但这更像“多模型共识蒸馏”而不是无成本自进化。
深度解读
PST 在 3 个数学基准上把 Gemma-2-2B、LLaMA-3.2-1B、Qwen-2.5-1.5B 的 exact-match 提高了 2.2 到 4.3 个百分点,并把 GV-Gap 压低了 26% 到 40%。我对这件事的判断很直接:它有研究味,也有实用味,但别把它听成“模型自己学会推理了”。这套方法更接近把多模型采样时已经存在的共识信号,重新包装成训练信号;增益是真的,叙事要降温。
这次是 2 个源同时挂出同一篇论文,但两边标题完全一致,正文也基本就是 abstract 的再排版。这个覆盖广度本身不代表社区已经验证,反而说明现在的信息源高度集中在作者给出的官方表述上。换句话说,媒体之间没有角度分歧,因为几乎没有独立解读材料。我自己没看到这里给出额外实验细节,也没看到谁补了失败案例、训练成本、聚合器定义或鲁棒性边界,所以很多判断还得卡在论文层面。
方法上,PST 的核心不复杂:多个模型对同一道题顺序作答,最后拿一个聚合答案当“内部标签”,再用 PMI 衡量每个中间回答对最终聚合有多大信息量,信息越低、偏得越远,更新越大。这个设计有意思的地方在于,它不走 teacher-student,也不靠外部 verifier。过去一年大家看过太多变体:self-consistency 用多次采样投票,STaR 用正确链路回灌,debate / self-play 让模型互相挑错,RLVR 则靠可验证奖励把搜索压到正确轨道。PST 是把“推理时集成”往“训练时自蒸馏”搬了一步,这一步是成立的。
但我有两个保留。第一,聚合答案为什么更可靠,摘要里只说“in practice often more reliable”,机制没有展开。若聚合器只是多数票或某种简单汇总,那它吃到的提升很大概率来自误差独立性,而不是模型真的学到了新的推理结构。这个在数学题上常见,因为答案空间收敛、可比对、错法分散。换到开放问答、长程规划、代码修复,群体共识未必比单模型更真,很多时候只是更像平均意见。标题给了“language model reasoning”,正文披露的其实只有数学推理。
第二,这个“无监督”说法我不太买账。它确实没有外部人工标签,也没有 teacher,但它依赖至少多个模型、顺序生成、再聚合、再微调。训练标签没花人工,计算账单没有消失。若 1B 到 2B 模型都要一起跑,采样轮次又不低,这个方法在算力上是否优于直接做更强的 self-consistency 蒸馏,摘要没有披露。没有训练 token 数、采样数、聚合规则、每轮更新预算,就没法判断 2.2 到 4.3 个点到底便宜不便宜。
GV-Gap 降 26% 到 40% 是另一个我会盯的信号。若 generator-verifier gap 的定义稳固,这说明模型生成的中间推理和最终可验证答案更一致了,不只是猜对更多题。问题是这里正文没给公式,也没给 verifier 的构造。若 verifier 本身接近答案匹配或轻量检查器,那这个 gap 更像“格式和结论对齐”;若 verifier 更强,含金量就高很多。现在信息还不够。
跟过去一年的路数相比,PST 的价值在于它给“小模型互相教”提供了一个比简单互蒸馏更像样的权重机制。PMI 加权不是新物理,但它至少试图区分“已经对齐的回答”和“该被纠偏的回答”,避免所有生成都被一视同仁地当伪标签。这比拿最佳采样直接回灌要干净一些,也比单模型自训练少一点自嗨闭环。可它也天然带来一个风险:多模型如果共享同类预训练偏差,聚合器会稳定放大共识偏误,把少数但正确的异常思路压掉。小模型族群尤其容易这样,因为错误相关性通常不低。
我还想看两类缺失实验。一个是异构性:3 个模型分别是 Gemma、LLaMA、Qwen,参数在 1B 到 2B,算有点异构,但摘要没说是不是混合训练、还是各自和同伴交互后分别更新。若必须跨家族协作,工程门槛会上升;若单家族多副本也能复现,那适用面大很多。另一个是任务外迁移:SimulEq、Math500、MultiArith 都偏数学与算术,题目有明确答案。没有 GSM8K 之外的更难组合推理,没有代码 benchmark,没有长上下文任务,我暂时不会把它外推到“通用 reasoning self-improvement”。
所以我给这条的定位是:一个把集成共识转成训练信号的漂亮小框架,短期对小模型数学推理有现实价值;离“无外部监督持续自我进化”还差关键证据。要让我更信,得看到三样东西:同等算力下对 self-consistency distillation 的净胜幅度、开放式任务上的失效边界、以及聚合器在错误共识场景里的抗偏表现。现在这篇论文先说明一件事:多模型之间的分歧本身就是训练数据,只是这批数据目前还只在容易验分的题上显得好用。
HKR 分解
hook ✓knowledge ✓resonance ✓
88
SCORE
H1·K1·R1