07:55
17d ago
● P1arXiv · cs.CL· atomEN07:55 · 04·11
为什么监督微调学不会:大语言模型不完全学习的系统研究
论文定义并系统研究 SFT 的“不完全学习”现象:模型即使收敛,仍会复现失败部分监督训练样本。摘要称该现象在 Qwen、LLaMA、OLMo2 及多领域数据中普遍存在,并归因为 5 类来源;真正该盯的是,整体指标上涨会掩盖持续学不会的子集。
#Fine-tuning#Benchmarking#Interpretability#Qwen
精选理由
HKR 三轴都成立:标题反直觉,摘要给出跨模型与 5 类来源,议题直接指向微调评估是否可信。提供的文本没披露失败比例、实验设置和复现门槛,所以定在 80 分 featured,不到 p1。
编辑点评
这篇论文把 SFT 的老毛病钉成了一个可测问题:模型收敛了,训练集里仍有一批样本死活学不会。
深度解读
论文把“不完全学习”定义成一个很扎实的问题:模型在 SFT 收敛后,仍无法复现部分监督样本,并把成因拆成 5 类。这个定义我买账,因为它戳中的不是 benchmark 漂不漂亮,而是训练目标有没有真的被吃进去。做过指令微调的人基本都见过这类现象:eval 涨了,loss 也降了,抽查训练集里的边角样本,模型还是答偏。以前大家多半把它归到噪声、seed、数据脏。作者这次想说,别再拿总分掩盖局部失学。
这件事跟过去一年很多“调一调就变强”的叙事有点拧着来。开源圈从 Llama 3、Qwen 2 到 Qwen 2.5,那套默认动作一直是多轮 SFT 加偏好优化,再看通用榜单和若干垂类集。工业流程里,大家也常用 pass@k、win rate、平均 Rouge 这类聚合指标做 stop condition。问题是,聚合指标天生会吞掉尾部失败样本,尤其是低频格式、长链依赖、知识前提缺失、还有数据内部自相矛盾的样本。论文把这批“怎么训都半吊子”的例子单独拎出来,其实是在提醒一个很不舒服的事实:你看到的收敛,经常只是大多数样本的收敛,不是监督信号的完整吸收。
我觉得文中 5 类来源里,最有工程价值的是两类。第一类是 pretrain 先验和 SFT 监督打架。这个在代码、数学、拒答、安全风格上特别常见。预训练里学到的高频模式太强,SFT 给的监督量又不够,结果模型表面顺从,细看仍会滑回旧分布。第二类是 sequential fine-tuning 的 left-side forgetting。这个说法和很多多阶段流水线经验很贴:先训格式,再训领域,再训安全,最后上线前补一轮小数据,模型早期学到的东西会被后段覆盖。我自己没看全文实验设计,摘要也没披露每类占比、判别信号、干预增益,所以这里先不能替作者把机制说死。
我还想补一个文章外的上下文。去年不少团队已经在讨论“SFT teaches style more reliably than knowledge”。我记得一些工具调用和结构化输出工作里,模型很容易学会 JSON 壳子,却学不会触发条件和参数边界。再往前看,LoRA/QLoRA 在小预算适配上很好用,但它也常把优化容量集中到高频模式,稀有样本更容易掉队。这篇论文如果证明确实跨 Qwen、LLaMA、OLMo2 都稳定存在 ILP,那它碰到的就不是某个 tokenizer、某个 learning rate、某个 adapter rank 的局部坑,而是 SFT 目标本身过于粗糙。
我对这条也有一个保留。论文标题叫“Why SFT Fails to Learn”,口气很大,正文摘要给出的其实是“有一部分样本学不会”。这两者不是一回事。很多训练样本本来就不该被逐字复现,尤其是多答案任务、带压缩表述的 instruction、还有本身标注不一致的数据。把“训练后不能复现样本”直接等同于“没学会”,有定义偷跑的风险。作者说他们做了 diagnostic-first mapping,这很好,但 RSS 摘要没给出判定标准:是 exact match、语义等价、还是 task-specific verifier?没有这个,ILP 的边界会很飘。
还有一层更现实。很多团队今天已经不把 SFT 当唯一主菜了,而是和 DPO、RFT、online RL、test-time scaffolding 混着用。OpenAI、Anthropic、Google 这两年公开材料里,越来越少把纯 SFT 当最终性能来源。原因很简单:SFT 对分布内模仿很强,对跨样本泛化、长程规划、奖励对齐没那么稳。所以这篇论文的价值,不是证明“大家一直用错了”,而是给 SFT 在整条后训练链路里重新定位置。它更像一个高带宽写入器,但不是可靠的完整记忆器。
要是全文后面真的给出了每一类 ILP 的可观测信号和对应干预,我会很想看两件事。第一,干预后改善的是那批未学会子集,还是只是换一批样本继续掉队。第二,修复 ILP 会不会伤到 OOD 泛化和拒答稳定性。很多时候你把训练集记得更死,泛化反而变差。摘要没披露这些数字,我还不能站到“这会改写 SFT 流程”那一步。
我对这篇的结论是偏正面的。它没有发明新训练范式,却把一个工程上老被忽略的损失项翻到了台面上。对做微调平台、数据清洗、课程学习和后训练评测的人,这比再多一个综合榜单分数有用得多。
HKR 分解
hook ✓knowledge ✓resonance ✓
86
SCORE
H1·K1·R1