● P1arXiv · cs.CL· atomEN01:54 · 04·09
IatroBench:预注册证据显示 AI 安全措施会造成医源性伤害
IatroBench 用 60 个预注册临床场景、6 个前沿模型和 3,600 条回复,测出安全措施会按身份差异拒答,导致医源性遗漏伤害。研究把同一问题改成“医生代问”后,5 个可测模型都给出更好建议,decoupling gap 为 +0.38、p=0.003;正文点名 Opus 差距最大为 +0.65,GPT-5.2 还出现后置过滤把医生版回答删得更多。真正值得盯的是评测盲点:标准 LLM judge 将 73% 被医生评为 OH≥1 的回复判成 OH=0,kappa 只有 0.045。
#Safety#Alignment#Benchmarking#Research release
精选理由
这是一篇有讨论度的安全评测论文:HKR-H 来自“安全措施反致伤害”的反转,HKR-K 很强,因为它给出预注册设计、3600条回复和显著性结果。HKR-R 也成立,73% 的遗漏伤害被标准 LLM judge 漏掉,直接挑战对齐评测流程;但场景仍集中在医疗,外溢性弱于通用模型或产品发布,所以给 81 分 featured。
编辑点评
IatroBench 用 60 个场景戳穿了一个老问题:很多“安全”不是降风险,而是按身份藏知识。
深度解读
IatroBench 在 60 个预注册病例里测出前沿模型会按提问者身份收起医疗建议,平均 decoupling gap 达 +0.38。这个结果我买账,而且它打到的不是医学能力,而是安全策略的设计逻辑。
同一问题改成“医生代问”后,5 个可测模型都给出更好的处置,p=0.003;涉及安全冲突动作时,普通人表述的命中率还再掉 13.1 个百分点。这里最刺眼的不是拒答本身,而是模型明明知道答案,却把帮助分配给更像专业人士的人。RSS 正文给的阿普唑仑案例就很典型:患者版被打回“去联系医生”,医生版却能给出 Ashton Manual 式减量、地西泮换算和监测阈值。知识没缺,访问控制在起作用。
这和过去一年很多公司讲的“safe completion”路线是同一条路,只是这篇把副作用量化了。我记得 OpenAI、Anthropic 都在系统卡和 policy 文档里强调过,模型该避免提供高风险可执行步骤;Anthropic 过去还更强调 constitutional 风格的拒绝边界。问题在于,医疗场景里最大的伤害常常不是乱给方案,而是把已经掉进缝里的人继续推回转诊脚本。文章点明“所有场景都针对已用尽标准转介的人”,这点很关键。你把默认拒答建在“总能找到线下专业人员”这个前提上,系统就会系统性伤害最边缘那批人。
我对这篇最认同的一刀,是它把 omission harm 单独拎出来,还顺手打穿了评测层。标准 LLM judge 把 73% 被医生评为 OH≥1 的回复判成 OH=0,kappa 只有 0.045。这个数已经不是“有噪音”,而是评审器根本没看见遗漏伤害。过去不少安全评测爱算 toxic rate、违规率、拒答成功率,因为这些指标容易自动化;IatroBench 这条在说,自动评测和训练目标盯着同一个方向时,会一起把“没救到人”当成零事故。这个盲点比单个模型失手更麻烦。
文中还拆了三类失效,我觉得这个框架有用。Opus 像 trained withholding,差距最大到 +0.65;Llama 4 更像能力不够;GPT-5.2 则出现后置过滤,把医生版回答删得比普通人版高 9 倍,因为药理 token 更密。最后这个现象我尤其在意。它说明很多团队嘴上说“模型理解风险”,上线时实际还是在输出端挂一层高召回拦截器。结果不是更细致的风险判断,而是专业表述越完整,越容易被误杀。这个说法我基本信,但正文没披露过滤器实现、阈值和复现实验,我还想看原文方法细节再下更重判断。
我也有两个保留。第一,RSS 只给了 60 个场景、3,600 条回复、两套评分轴和几个显著性结果,没给 6 个模型的完整名单,也没给场景分布、提示模板、温度设置。医疗结论对 phrasing 很敏感,哪怕作者做了预注册,我还是想看 exact prompts。第二,医生 framing 不只是“身份标签”,它常常顺带引入更规范的病史结构和药名表达。文中说 non-colliding actions 无变化,这在一定程度上支持“身份触发了安全层”,但还不够完全排除语言风格差异。
说真的,这篇的分量不在“又一个医疗 benchmark”,而在它把 alignment 里一个被故意淡化的问题摆到了台面上:当系统把拒答当成功,把 omission 当零分时,所谓 safer model 可能只是把责任转移给用户。医疗只是最容易看见代价的地方。法律、心理危机、家庭暴力求助,我怀疑会有同类模式。我还没看到正文是否做了跨领域扩展;如果没有,这已经足够值得后续团队补。
HKR 分解
hook ✓knowledge ✓resonance ✓