06:35
26d ago
arXiv · cs.CL· atomEN06:35 · 04·02
PRISM:用跨度内掩码做知识敏感对齐的概率重分配
PRISM 在带句级事实风险标签的 SFT 中,只在事实关键位置重分配目标概率,抑制高风险 token 的过度自信生成。方法结合跨度级风险权重、模型感知门控与知识掩码;摘要称其在幻觉敏感基准上提升事实性,同时保持总体能力,但正文未披露具体模型、分数和增幅。
#Fine-tuning#Alignment#Benchmarking#Research release
精选理由
HKR-K 成立,因为稿子给出了一个可辨认的新机制:把 SFT 的目标概率重分配限制在事实关键 span,并加入风险权重、门控和知识掩码。HKR-H 与 HKR-R 偏弱,标题和摘要都没给出模型、基准分数与增幅,所以只能进 all,不到 featured 线。
编辑点评
PRISM 只改事实关键 token 的 SFT 目标分布。思路不新,但比整句降权更像能落地的细修补。
深度解读
PRISM 这篇先把刀下在 SFT 最容易出事的位置:模型对“看起来像事实”的 token 过度自信,而且一旦写错,后面几句会顺着错下去。它给出的动作很克制:不是重写整条损失,也不是上一个大检索模块,而是在带句级事实风险标签的样本里,只对事实关键位置重分配目标概率。这个方向我买账,因为很多“抗幻觉”方法败在手术面太大,最后 factuality 涨一点,通用能力掉一截。摘要自己也承认,辅助信号要“保守使用”才有效,这反而像真做过消融,不像纯口号。
我对这条的直觉是:它更像训练目标层的小修复,不是知识问题的总解。过去一年这条线已经很清楚了。RAG、工具调用、拒答校准、DPO/RLHF 后处理,都在解决不同环节的幻觉。PRISM 瞄准的是更早一层:SFT 在模仿不可靠参考答案时,会把错误 token 学成高置信默认项。这个判断和不少 work 的经验一致——一旦 teacher response 本身带着半真半假的事实,交叉熵硬压 one-hot,本来就会把“不确定”学成“确定”。如果 PRISM 真能只在高风险 span 上把分布拉平一点,它至少抓住了病灶,不是在外面贴创可贴。
问题也很直接。标题给了“Probability Reallocation with In-Span Masking”,正文没披露 3 个关键信息:用的是什么 backbone,风险标签怎么标,提升幅度是多少。没有这三样,这篇现在还不能判断成“方法有效”,只能判断成“方法方向合理”。我自己最在意第二点。句级 factual risk label 和句间依赖标注,听起来比普通 SFT 数据贵不少。要是这些标签靠人工或强模型蒸馏生成,训练成本会迅速上去,适用面就窄了。很多 alignment 论文在 loss 上赢,最后输在数据管线上,这条我有点警觉。
还有一个我想 push back 的地方:摘要说“across backbones”有效,但没给 backbone 名字。这个表述很滑。7B 到 70B、base 到 instruct,行为完全不同。小模型常见问题是知识缺口,大模型常见问题是错误时还很自信;同一套风险门控不一定都占优。我还没查到原文表格,所以不想替作者补结论。
要是后续正文放出,我会先看两件事。第一,和 vanilla SFT、label smoothing、token-level unlikelihood 比,增益有没有超过 1-2 个点。第二,开放域问答之外,在摘要、长文生成、multi-hop 场景里是否还成立。要是这两项都站得住,PRISM 会是个挺实用的训练 recipe;站不住,它就只是把“别太自信”写进 loss 的又一个变体。
HKR 分解
hook —knowledge ✓resonance —
69
SCORE
H0·K1·R0