全部

▸ 200 items · updated 3m ago

按日期浏览4834 项 · 57 天

2026年2月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 2722 285

2026年3月

一二三四五六日

13 22 35 44 519 616 71 81 97 109 117 126 137 14 15 167 1711 1844 1984 2069 2132 2241 2375 2477 2579 2670 2756 2824 2932 3058 3185

2026年4月

一二三四五六日

198 2101 379 432 535 691 7126 8129 9112 1087 1142 1271 13159 14140 15122 16246 1781 1853 1960 20346 21687 22363 23348 24254 258 26 276282930

2026-04-22 · 星期三2026年4月22日

04:00

5d ago

arXiv · cs.LG· atomEN04:00 · 04·22

通过近端解耦实现无遗忘任务切换

Pourya Shamsolmoali等在arXiv提出近端解耦方法，把持续学习更新拆成任务损失最小化与近端稳定两步，目标是在任务切换时减少遗忘。论文称该方法用稀疏正则剪除冗余参数、保留任务相关参数，并给出理论说明；在标准基准上达到SOTA，但摘要未披露具体数据集、分数与增幅。真正值得盯的是，它不依赖replay buffer、Bayesian sampling或meta-learning组件。

#Fine-tuning#Benchmarking#Pourya Shamsolmoali#Eric Granger

精选理由

这篇论文有明确方法点：摘要写了“任务损失最小化 + 近端稳定”的两步更新，还强调不依赖 replay buffer、Bayesian sampling 或 meta-learning。分数压在 all，因为正文片段未披露数据集、SOTA 分数和增幅，也没把结果连到 agent、微调工作流或产品侧影响。

编辑点评

作者把持续学习更新拆成两步，还声称不用 replay 就拿到 SOTA；这条思路我买一半，方法干净，但摘要没给基准和增幅，先别急着认账。

深度解读

论文把持续学习更新拆成两步：先优化当前任务，再做近端稳定约束。这个改动不花哨，但我觉得方向是对的，因为它直接冲着连续学习里最老的问题下手：学习信号和保留信号被硬塞进同一次梯度更新，最后谁也学不好。我一直觉得，很多 continual learning 方法输就输在“把约束写进 loss”这一步太偷懒。EWC、SI、MAS 这一系方法，核心都是给旧任务重要参数上罚项。问题是罚项和当前任务损失共用一个梯度场，任务一多，优化器看到的就是一锅互相拉扯的信号。这个工作用 operator splitting 把两件事拆开，至少在机制上更像 ADMM、proximal gradient 这类老派优化思路：先朝当前任务走，再单独处理稳定性。这个处理比“再发明一个 importance score”更像真问题导向。摘要里还有个点，我觉得比“SOTA”那句话更有信息量：它用 sparse regularizer 去剪掉冗余参数，保留任务相关参数。这里的潜台词是，作者不把遗忘只看成参数漂移问题，而是看成容量分配问题。这个视角跟参数隔离、mask、adapter 路线有点亲缘关系，只是它没有直接走 PackNet、Piggyback、HAT 那种显式分配子网络的路。我没看 PDF 细节，不确定它的稀疏项具体落在权重、通道还是某种 task-specific gate 上；正文页里也没给。但如果它只是“软稀疏 + 近端步”，那部署成本确实比 replay buffer 和 task head 维护低一截。我对摘要里的“SOTA on standard benchmarks”还是有保留。标题和摘要给了方法，没给数据集、平均准确率、forgetting score、backward transfer、任务数，连是 class-incremental 还是 task-incremental 都没写清。这个缺口很大。continual learning 领域这些年最容易玩的，就是在 Split CIFAR-100、Permuted MNIST、Split TinyImageNet 上刷表，然后把 setting 调得对自己有利。有没有 exemplar memory？任务边界训时已知吗？模型容量是否随任务增长？这些条件一变，结论常常直接换人。我跟你说，没有这些口径，“SOTA”三个字基本只能算占位符。外部参照也得放在这里。过去一年更实用的路线，很多不是把正则再修一遍，而是直接用参数高效微调、模块化专家，或者干脆配合少量 replay。尤其到大模型场景，LoRA/adapter 式 continual tuning 往往比全参数正则更稳，因为它把新知识写进新增低秩空间，天然少碰旧参数。这个 proximal decoupling 如果只在中小型 vision benchmark 上成立，那学术上成立，工程上未必有穿透力。反过来，如果作者后面能证明它在 ViT、CLIP encoder，甚至 7B 级别微调里还能压住遗忘，那这条线就会比很多 CL 老方法更像能落地的东西。还有一个我自己的疑虑：稀疏正则经常把“保留关键参数”说得很轻松，实际超参数很折磨。稀疏强度、近端步长、任务切换频率，这三件事一般都很敏感。摘要说它不要 replay、Bayesian sampling、meta-learning 组件，这当然让方法更干净；但干净不等于省调参。我没查到它是否做了大范围敏感性实验，也没看到算力开销和训练 wall-clock。要是它每次切任务都要跑一轮昂贵的近端求解，很多人宁可直接上小 buffer。所以我的判断很简单：这篇值得看方法，不值得先信成绩。它抓到的是 continual learning 里一个长期被默认接受的坏设定——把学习和保留混成一次更新。这个批评我认。但在 benchmark、增幅、消融、算力都没披露前，我不会把它看成 replay-free continual learning 的新答案，只会把它看成一个优化视角很正的候选解。

HKR 分解

hook ✓knowledge ✓resonance —

全部

更多

频道

后台