04:00
5d ago
arXiv · cs.LG· atomEN04:00 · 04·22
通过近端解耦实现无遗忘任务切换
Pourya Shamsolmoali等在arXiv提出近端解耦方法,把持续学习更新拆成任务损失最小化与近端稳定两步,目标是在任务切换时减少遗忘。论文称该方法用稀疏正则剪除冗余参数、保留任务相关参数,并给出理论说明;在标准基准上达到SOTA,但摘要未披露具体数据集、分数与增幅。真正值得盯的是,它不依赖replay buffer、Bayesian sampling或meta-learning组件。
#Fine-tuning#Benchmarking#Pourya Shamsolmoali#Eric Granger
精选理由
这篇论文有明确方法点:摘要写了“任务损失最小化 + 近端稳定”的两步更新,还强调不依赖 replay buffer、Bayesian sampling 或 meta-learning。分数压在 all,因为正文片段未披露数据集、SOTA 分数和增幅,也没把结果连到 agent、微调工作流或产品侧影响。
编辑点评
作者把持续学习更新拆成两步,还声称不用 replay 就拿到 SOTA;这条思路我买一半,方法干净,但摘要没给基准和增幅,先别急着认账。
深度解读
论文把持续学习更新拆成两步:先优化当前任务,再做近端稳定约束。这个改动不花哨,但我觉得方向是对的,因为它直接冲着连续学习里最老的问题下手:学习信号和保留信号被硬塞进同一次梯度更新,最后谁也学不好。
我一直觉得,很多 continual learning 方法输就输在“把约束写进 loss”这一步太偷懒。EWC、SI、MAS 这一系方法,核心都是给旧任务重要参数上罚项。问题是罚项和当前任务损失共用一个梯度场,任务一多,优化器看到的就是一锅互相拉扯的信号。这个工作用 operator splitting 把两件事拆开,至少在机制上更像 ADMM、proximal gradient 这类老派优化思路:先朝当前任务走,再单独处理稳定性。这个处理比“再发明一个 importance score”更像真问题导向。
摘要里还有个点,我觉得比“SOTA”那句话更有信息量:它用 sparse regularizer 去剪掉冗余参数,保留任务相关参数。这里的潜台词是,作者不把遗忘只看成参数漂移问题,而是看成容量分配问题。这个视角跟参数隔离、mask、adapter 路线有点亲缘关系,只是它没有直接走 PackNet、Piggyback、HAT 那种显式分配子网络的路。我没看 PDF 细节,不确定它的稀疏项具体落在权重、通道还是某种 task-specific gate 上;正文页里也没给。但如果它只是“软稀疏 + 近端步”,那部署成本确实比 replay buffer 和 task head 维护低一截。
我对摘要里的“SOTA on standard benchmarks”还是有保留。标题和摘要给了方法,没给数据集、平均准确率、forgetting score、backward transfer、任务数,连是 class-incremental 还是 task-incremental 都没写清。这个缺口很大。continual learning 领域这些年最容易玩的,就是在 Split CIFAR-100、Permuted MNIST、Split TinyImageNet 上刷表,然后把 setting 调得对自己有利。有没有 exemplar memory?任务边界训时已知吗?模型容量是否随任务增长?这些条件一变,结论常常直接换人。我跟你说,没有这些口径,“SOTA”三个字基本只能算占位符。
外部参照也得放在这里。过去一年更实用的路线,很多不是把正则再修一遍,而是直接用参数高效微调、模块化专家,或者干脆配合少量 replay。尤其到大模型场景,LoRA/adapter 式 continual tuning 往往比全参数正则更稳,因为它把新知识写进新增低秩空间,天然少碰旧参数。这个 proximal decoupling 如果只在中小型 vision benchmark 上成立,那学术上成立,工程上未必有穿透力。反过来,如果作者后面能证明它在 ViT、CLIP encoder,甚至 7B 级别微调里还能压住遗忘,那这条线就会比很多 CL 老方法更像能落地的东西。
还有一个我自己的疑虑:稀疏正则经常把“保留关键参数”说得很轻松,实际超参数很折磨。稀疏强度、近端步长、任务切换频率,这三件事一般都很敏感。摘要说它不要 replay、Bayesian sampling、meta-learning 组件,这当然让方法更干净;但干净不等于省调参。我没查到它是否做了大范围敏感性实验,也没看到算力开销和训练 wall-clock。要是它每次切任务都要跑一轮昂贵的近端求解,很多人宁可直接上小 buffer。
所以我的判断很简单:这篇值得看方法,不值得先信成绩。它抓到的是 continual learning 里一个长期被默认接受的坏设定——把学习和保留混成一次更新。这个批评我认。但在 benchmark、增幅、消融、算力都没披露前,我不会把它看成 replay-free continual learning 的新答案,只会把它看成一个优化视角很正的候选解。
HKR 分解
hook ✓knowledge ✓resonance —
69
SCORE
H1·K1·R0