23:13
22d ago
arXiv · cs.CL· atomEN23:13 · 04·04
CURE:面向 LLM 推荐的电路感知遗忘
论文提出 CURE,在 LLM 推荐遗忘中按功能拆分电路并选择性更新参数,以缓解遗忘目标与保留目标的梯度冲突。方法把模块分成遗忘专属、保留专属、任务共享三类;正文未披露实验数据、数据集名称和提升幅度。真正值得盯的是可解释遗忘路径,不是再调一组统一权重。
#Fine-tuning#Interpretability#Alignment#Research release
精选理由
论文提出按遗忘专属、保留专属、共享电路选择性更新参数,HKR 里 K 成立。摘要没有给出数据集、提升幅度或复现实验结果,场景又限于推荐遗忘,H 与 R 都偏弱,所以归入 all。
编辑点评
CURE 把 LLM 推荐遗忘拆成三类模块更新,我买账这个方向;统一加权那套在隐私场景里已经越跑越像碰运气。
深度解读
CURE 把遗忘模块分成 3 类并分别更新参数,这一步至少把“遗忘为什么失效”从黑箱往前推了一截。我对这条的判断很直接:如果正文实验真能站住,这类方法的价值不在推荐,而在把 machine unlearning 从损失函数调参,往机制级干预挪。现在很多遗忘论文还停在 forget loss 和 retain loss 的权重博弈,参数一把梭地改,最后不是忘不干净,就是把正常能力一起打穿。CURE 说自己用 circuit-aware 的方式缓解梯度冲突,这个思路比再报一组 trade-off 曲线更像正路。
我还是得泼点冷水。标题和摘要给了框架,正文摘录只说“real-world datasets”有效,数据集名称、指标、提升幅度、删除请求规模都没披露。没有这些信息,没法判断它解决的是小规模 profile removal,还是更难的 user-level behavioral unlearning。推荐里的遗忘比通用 LLM 难,因为用户兴趣和物品语义本来就高度纠缠;你删一个用户,不是在删一段独立知识,更像在动一张稠密偏好图。只要评测没把 membership inference、top-K 质量、长期校准一起报,很多“遗忘成功”都不太能信。
这条和过去一年常见的做法有个清楚分野。我记得不少 unlearning 工作,包括 SISA 那一路的切分重训思路、还有通用模型里用 LoRA 或 gradient ascent 做近似遗忘,核心都是降低重训成本,不太解释“哪些参数在承载该删的东西”。CURE 把 circuit 搬进来,至少在叙事上更接近 Anthropic、OpenAI 近两年常讲的 mechanistic interpretability 路线:先找功能子图,再谈定向干预。问题也在这儿——推荐模型里的“电路”是否稳定、跨数据集是否可复现、换个 backbone 还成不成立,摘要没给答案。我自己对 circuit 这套在 LLMRec 里的稳健性有点怀疑,因为推荐任务的分布漂移比通用问答大得多,今天抽出的 forget-specific 模块,明天换一批物品语料就未必还是那批。
所以这篇我暂时给“方向对,证据不够”。如果后续论文正文能拿出至少三组东西,我会更认真看:一是和 gradient-based baseline 的遗忘-保留 Pareto 曲线;二是不同删除比例下的稳定性;三是模块划分的可重复性。没有这些,circuit-aware 很容易沦为一个比“动态权重”更好听的新标签。
HKR 分解
hook —knowledge ✓resonance —
68
SCORE
H0·K1·R0