04:00
7d ago
FEATUREDarXiv · cs.LG· atomEN04:00 · 04·21
确定性的幻觉:在 on-policy distillation 中解耦能力与校准
论文指出,on-policy distillation 会提升任务准确率,却把模型推向系统性过度自信。作者将原因归结为训练期特权上下文与部署期可用信息不一致,并提出 CaOPD,用模型 rollout 估计经验置信度,替换自报置信度目标。实验覆盖多种模型与领域,摘要称其在 OOD 与持续学习下保持 Pareto 最优校准;具体基准数字正文摘要未披露。
#Fine-tuning#Alignment#Benchmarking#SalesforceAIResearch
精选理由
这篇研究抓住了一个实用痛点:on-policy distillation 提升准确率,却系统性拉坏校准。HKR 三项都过,摘要也给出失配机制和 CaOPD 方法;关键 benchmark 数字未在摘要披露,所以给到 featured,不上 p1。
编辑点评
CaOPD 把 OPD 的老问题挑明了:准确率能涨,置信度照样坏;只看 win rate 的后训练流程该补课了。
深度解读
论文直接说了一个硬结论:on-policy distillation 会提升准确率,却会把校准系统性推向过度自信;摘要没给具体幅度,也没披露基准数。
我对这条是买账的。过去一年不少后训练工作都把“会答对”当成主目标,把“知道自己什么时候会错”放在边上。结果很常见:pass@1、偏好胜率、工具调用成功率上去,置信度分布却更尖、更假,尤其在 OOD 和长尾样本上露馅。这个现象在 RLHF、DPO、RFT 旁边都见过,不是 OPD 独有;这篇的价值,在于它把 OPD 里的机制单独拆开了。
作者给的解释也对路:教师监督拿着训练期特权上下文,学生部署时却只能用部署期信息报置信度。这个错位一旦存在,学生学到的就不是“我有多大把握”,而是“老师在更完整信息下有多大把握”。两者不是一回事。摘要里用了 entropy collapse 和 optimism bias 这两个词,我觉得很关键。很多团队把更低熵输出当成更稳定,实际常常只是更敢说。校准差的模型,在 demo 里很顺,在线上回滚时最烦。
CaOPD 的做法是用 student rollout 去估经验置信度,替掉自报置信度目标。这个方向我赞成,因为它至少承认“置信度要从可执行行为里估”,不能只从 token logprob 或 teacher label 里抄答案。外部参照也不少。两三年前很多校准论文就反复证明,LLM 的 token probability 和 answer correctness 相关,但远远不够,经过指令微调后还会继续漂。我记得 OpenAI、Anthropic、Google DeepMind 都做过类似分析,名字和数字我这会儿没逐条核,但结论差不多:更会做题,不等于更会报把握。
我也有保留。第一,摘要说 Pareto-optimal calibration,同时保持 competitive capability,这话很好听,但没给 ECE、Brier、NLL、AUROC 之类数字,也没说 capability 用的是哪组任务。没有这些,读者没法判断它是在 1-2 个点的小修补,还是把一整段 Pareto front 往外推。第二,rollout-based confidence 的成本不低。你如果要为每个样本做多次 rollout,再把经验成功率蒸馏回去,训练成本和推理延迟怎么摊,摘要没写。很多“校准更好”的方法一上生产就卡在这里:离线论文成立,线上预算不成立。
还有一个我想追问的点。作者把问题归到“训练有特权信息,部署没有”,这个解释很强,但我不确定它是否覆盖主要误差源。现实系统里的过度自信,很多时候还来自 reward shaping、偏好模型偏置、拒答惩罚、格式约束,甚至 eval contamination。CaOPD 如果只修 OPD 这一层,放进整套 post-training stack 里还剩多少增益,要看代码和复现实验。我自己还没跑过仓库,不敢替它背书到那一步。
说真的,这篇最有用的地方,不是又发明了一个缩写,而是给后训练团队提了个很不舒服的问题:你蒸馏的到底是能力,还是一种被训练条件抬高过的自信口气。要是后者占比很高,模型分数越漂亮,线上事故反而越难排。摘要已经把方向讲清了;现在差的是数字、成本、和在真实 agent pipeline 里的稳定性。
HKR 分解
hook ✓knowledge ✓resonance ✓
84
SCORE
H1·K1·R1