全部

▸ 200 items · updated 3m ago

按日期浏览5426 项 · 59 天

2026年2月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 2712 285

2026年3月

一二三四五六日

13 22 35 44 519 616 71 81 97 109 117 126 137 14 15 167 1711 1844 1984 2069 2132 2241 2375 2477 2579 2670 2756 2824 2932 3058 3185

2026年4月

一二三四五六日

198 2102 379 432 535 691 7126 8129 9112 1088 1142 1271 13159 14141 15123 16249 1781 1854 1968 20386 21706 22362 23366 24278 2535 2626 27176 282632930

2026-04-20 · 星期一2026年4月20日

04:00

8d ago

FEATUREDarXiv · cs.LG· atomEN04:00 · 04·20

剪除不安全票据：一种更安全、更稳健 LLM 的资源高效框架

论文提出一种剪枝框架，直接删除与有害输出相关参数，并在仅需适度 GPU 资源的条件下用于 LLM 事后对齐。摘要称该方法采用无梯度归因，适配不同架构与量化变体；不安全生成降幅、越狱鲁棒性提升幅度、效用损失大小，正文未披露。真正该盯的是机制：它不再只改输出偏好，而是试图切掉“unsafe tickets”。

#Safety#Alignment#Inference-opt#Mistral

精选理由

HKR-H 和 HKR-K 成立：论文把安全对齐从拒答偏好训练转成“定位并剪除有害参数”，摘要还给出无梯度归因、事后对齐、兼容量化变体三条机制。HKR-R 偏弱，因为正文未披露不安全生成降幅、越狱提升和效用损失，所以给 featured，不到 must-write。

编辑点评

论文把安全对齐从改偏好推到剪参数。这个方向我买账一半：思路新，但没给剪枝比例、效用损失和越狱基线，离可用还差关键数字。

深度解读

这篇论文直接把“安全”落到参数删除上，而且条件写得很清楚：事后对齐、无梯度归因、资源开销适中、还能兼容量化模型。这个判断比很多安全论文硬，因为它不再假设拒答风格等于风险下降，而是声称预训练模型里存在可定位、可切除的“unsafe tickets”。如果这个命题成立，SFT 和 RLHF 在一部分场景里就更像表层约束，剪枝才是结构性修补。我对这个方向有兴趣，不只是因为它省资源。过去一年，安全对齐大多还是两条路：一条是继续做数据和偏好优化，比如 constitution、DPO、RLAIF 这类；另一条是做推理时防护，比如 classifier、router、system prompt、tool permission。两条路都有效，但都绕不开一个老问题：模型内部那套会产出危险续写的电路还在，只是被压住了。Anthropic 过去讲过 jailbreak robustness 退化，很多开源模型一换模板就掉线，原因就在这。你把输出风格教会了，不等于把危险回路拆掉了。这个工作想做的，就是后者。但我先泼点冷水。摘要里最关键的数字几乎都没给：不安全生成降了多少，越狱成功率从多少降到多少，utility loss 用什么任务量化，剪了多少参数，按层还是按模块剪，剪枝后是否需要再校准，正文摘要都没披露。没有这些，现阶段还不能判断它是“少量剪枝带来稳定收益”，还是“靠明显损伤能力换安全曲线好看”。安全论文里，这个坑太常见了。很多方法在 harmful set 上能赢 20 个点，转头就在 MMLU、GSM8K、MT-Bench 或视觉问答上掉得很难看。这里标题和摘要只说 minimal utility loss，我不接受这个表述当结论，除非作者把任务面、统计显著性和对照模型一起摆出来。我还想追问“gradient-free attribution”到底怎么做。无梯度听起来讨喜，因为它规避了全量反传的算力压力，也更适合量化权重和黑盒近似场景。但这类方法有个老毛病：归因稳定性不一定够，尤其在大模型里，参数间冗余和补偿很强。你今天识别到一组“危险参数”，明天换个提示模板、换个采样温度、换个语言，触发路径就可能漂。Lottery Ticket Hypothesis 拿来解释这件事很顺手，可我对它在 LLM 安全里的外推一直保留意见。LTH 在小模型和训练可重现性上有启发，放到跨任务、跨语言、跨模态的大模型里，常常会被过度讲故事。这里如果没有跨提示、跨语种、跨攻击模板的一致性结果，“unsafe tickets”更像一个有吸引力的比喻，不足以算被证明的机制。文章点了 Mistral 和 LLaVA，这里反而让我更在意泛化边界。文本模型和多模态模型的危险回路未必是同一种东西。LLaVA 这类 VLM 的风险，很多时候来自视觉编码器和语言头之间的接口错配，或者来自指令跟图像证据之间的竞争。你在纯文本 Mistral 上找到的可剪参数，未必能平移到图文联合表示上。摘要说 generalizes across architectures and quantized variants，这话很大；但正文没给具体架构、量化位宽、量化后回退幅度，我只能先当成作者声明，不当成已经坐实的工程结论。我寻思了一下，这条线如果成立，最现实的落点不是替代 RLHF，而是补它的短板。开源部署方一直有个痛点：拿到一个基础模型或指令模型后，没有预算重训，也没有高质量偏好数据，只能做 LoRA、rule-based guardrail、再加一个审核器。剪枝式 post-hoc alignment 如果真能在一两张卡上完成，而且对 4-bit、8-bit 量化版本还管用，那它对中小团队的价值很直接。这个位置有点像去年一些 representation engineering 工作想做的事：不碰大训练流程，直接改模型内部表征或局部参数，让安全性在部署端落地。差别在于，剪枝比加 steering vector 更“不可逆”，这既是优点，也是风险。优点是越狱者更难用提示把它绕回来；风险是你一旦剪错，能力损失也更难补。我自己的疑虑还有一层：很多有害行为并不是孤立能力，而是通用能力的坏用法。生化、网络攻击、社工诈骗，背后都吃推理、检索、计划、代码、长上下文整合这些通用电路。你若真把这些电路相关参数剪掉，安全会上去，但能力也容易一起掉。作者声称存在“safety tickets”能保住性能，这当然是最想看到的结果；可在我看来，这个命题比“有 unsafe tickets”更难成立。因为前者要求危险行为和有用能力在参数空间里可分，现实里它们往往纠缠得很深。Anthropic 和 OpenAI 这两年一直偏好 policy-layer + system-layer + monitoring-layer 的组合，而不是直接大规模删能力参数，我猜不是没想到，而是分离难度太高。说真的，这篇东西我会继续看全文，但现在只凭摘要，我把它放在“机制上有意思，证据还不够硬”的档位。它最有价值的地方，不是立刻提供一个通用安全补丁，而是逼安全研究正面回答一个老问题：我们到底是在训练模型学会礼貌地拒绝，还是在真正削弱有害行为的内部实现。标题已经给出方向，正文摘要没给关键数字。要让我相信这不是又一个 benchmark-safe、deployment-fragile 的方案，我至少要看到三组结果：一是明确的越狱攻击集和成功率前后对比；二是跨语言、跨模板、跨采样设置的稳定性；三是能力损失不只看一个基准，而是看推理、代码、多模态和长上下文。缺任何一组，这条都还停在好想法，不是可依赖的方法。

HKR 分解

hook ✓knowledge ✓resonance —

全部

更多

频道

后台