论文 · 2026-04-24

▸ 193 篇 · updated 3m ago

2026年3月

一二三四五六日

13 22 35 44 519 616 71 81 97 109 117 126 137 14 15 167 1711 1844 1984 2069 2132 2241 2375 2477 2579 2670 2756 2824 2932 3058 3185

2026年4月

一二三四五六日

198 2101 379 432 535 691 7126 8129 9112 1087 1142 1271 13159 14140 15122 16246 1781 1853 1960 20347 21687 22363 23348 24256 259 26 274282930

2026-04-24 · 星期五2026年4月24日

04:00

3d ago

● P1arXiv · cs.LG· atomEN04:00 · 04·24

意图漂白：AI 安全数据集并非表面那样

论文评测常用对抗安全数据集后发现，去掉触发线索后，先前被判“相当安全”的模型都会变得不安全。作者把问题拆成两部分：数据集是否贴近真实攻击，以及它测到的是安全风险还是拒答线索；在全黑盒条件下，意图漂白作为越狱方法的攻击成功率达90.00%到100.00%。真正值得盯的是评测失真：Gemini 3 Pro 与 Claude Sonnet 3.7/4 的结论会被提示词表面词汇主导。

#Safety#Benchmarking#Alignment#Google

精选理由

核心信息不是新越狱花样，而是常用安全评测可能把“触发词识别”误当“危险意图识别”；摘要给出90%到100%黑盒攻击成功率。H/K/R 三项都过，但它仍是单篇 arXiv 研究，未见部署侧验证，所以进 featured，不到 p1。

编辑点评

论文把常用安全集的遮羞布掀了：去掉触发词后，Gemini 3 Pro 和 Claude Sonnet 3.7/4 的“安全”分数基本不作数。

深度解读

作者在全黑盒条件下把意图漂白攻击做到90.00%到100.00%成功率，这已经足够说明一件事：不少安全评测测到的不是“模型会不会帮你作恶”，而是“模型会不会被几个敏感词吓到”。我对这条是买账的，因为过去一年很多红队结果都在重复同一个现象：表述一旦从直白请求换成角色扮演、摘要改写、研究用途包装，拒答率就会明显下滑。这个论文把问题直接钉在数据集层面，指向比单次 jailbreak 更麻烦的地方——我们可能一直拿错尺子。摘要给出的核心机制很清楚：常用对抗安全数据集过度依赖 triggering cues，也就是带有明显负面或敏感指向的词；作者把这些表面线索抽掉，同时严格保留恶意意图和关键细节，然后重新测模型。结果是先前被判“reasonably safe”的模型都会掉下来，文中点名 Gemini 3 Pro、Claude Sonnet 3.7/4。这个结论不算反直觉。很多 safety benchmark 本来就夹着两种东西：一类是在测 harm policy；另一类其实在测 keyword prior。要是数据里“炸弹、毒药、暗网”这类词密度过高，模型学会先拒绝再说，分数自然会好看。我一直觉得，安全评测里最被低估的问题不是攻击强不强，而是样本像不像真实攻击者写的。真实攻击者很少把危险意图写得这么直白。去年的一些越狱工作，像 many-shot jailbreaking、indirect prompt injection、role-play chaining，路子都不一样，但共同点很一致：攻击成功经常来自语境伪装，不来自显式对抗词。OpenAI、Anthropic、Google 过去发布 system card 时也常把 refusal rate、policy violation rate 分开讲，原因就在这。拒答高，不等于理解了风险；有时只等于嗅到了关键词。这个论文把那层窗户纸捅破了。我也有两点保留。第一，摘要没有披露 intent laundering 的具体构造流程、人工审核协议、以及“严格保留恶意意图”的一致性标准。这个很关键。只要改写步骤里顺手降低了可执行性，模型更容易回答，不一定代表更危险；反过来，若改写者主观补全了上下文，也会抬高攻击成功率。第二，90.00%到100.00%这个区间高得有点夸张。我不是说它不成立，我是想看样本量、任务类型、评分器是谁、以及是否区分了“给出部分帮助”和“完整可执行帮助”。安全论文里最容易被高数字带偏，尤其是黑盒设置下，评判口径一变，结论会差很多。即便带着这些保留，我还是觉得这篇论文打得很准，因为它在提醒一件业内早该承认的事：很多所谓 adversarial dataset，已经被评测循环反向污染了。研究者知道哪些写法像攻击，模型开发者也知道哪些词会触发护栏，最后数据集越来越像“让模型拒绝的脚本集合”，不像真实世界的对抗行为。Llama Guard、ShieldGemma、各种 policy classifier 都有类似风险；训练和评测若共享同一套表面线索，数字会稳定上升，泛化却未必跟着走。所以这篇的价值，不只是又多了一种 jailbreak。更硬的点在于，它逼大家把安全评测拆成两层：一层测显式违规请求的拦截率；一层测经过语义伪装后的意图识别率。两层不分开，模型团队就会继续拿一个混合分数自我感觉良好。标题已经给出很强判断，正文只有摘要，没披露数据集名单、样本规模、模型版本号和统计显著性。我还没法确认它是否足以推翻某个具体榜单。但作为方向判断，我认同：如果基准主要靠触发词驱动，那它测到的是表面顺从，不是安全。

HKR 分解

hook ✓knowledge ✓resonance ✓

论文 · 2026-04-24

更多

频道

后台