● P1arXiv · cs.CL· atomEN02:30 · 03·20
首个 token 之前:自回归语言模型中幻觉信号的尺度依赖涌现
论文分析 7 个 117M 到 7B 参数自回归 Transformer,发现幻觉相关内部表征在约 1B 以上模型会在生成前 0 位置出现显著峰值,而 400M 以下模型各位置探针准确率仅 AUC 0.48 到 0.67。结果覆盖 TriviaQA、Simple Facts、Biography 共 552 个标注样本;Pythia-1.4B 与 Qwen2.5-7B 的预生成信号显著,p 值分别为 0.012 和 0.038。真正值得盯的是,Pythia-6.9B 与 Qwen2.5-7B 同属 7B 级却表现分化,说明仅靠规模不够,指令微调更接近关键变量。
#Interpretability#Alignment#Benchmarking#Qwen
精选理由
HKR 三项都过线:标题的反直觉结论有钩子,正文也给出模型规模阈值、样本数和显著性结果。分数停在 80,因为它仍是单篇 arXiv 论文,样本只有 552,外部复现和产品化路径都未披露。
编辑点评
论文用 7 个模型抓到一个门槛:1B 以上才会在首 token 前泄露“我要胡说了”的信号,但这更像后训练产物,不是规模自己长出来的能力。
深度解读
论文给出的关键信号很明确:研究者在 7 个 117M 到 7B 自回归 Transformer 里看到,约 1B 以上模型会在 position 0、也就是首个 token 生成前,出现可探测的幻觉相关表征;400M 以下探针 AUC 只有 0.48 到 0.67,基本贴着随机线走。我的判断是,这条结果有价值,但它讲的不是“模型提前决定撒谎”这么戏剧化的故事,而是“模型在解码前已经形成了答案状态”。这两者差很多。前者听起来像意图,后者更像表征几何。做 interpretability 的人如果把这两件事混在一起,后面的因果推断很容易跑偏。
我更在意的是同尺度分化。Pythia-6.9B 和 Qwen2.5-7B 都在 7B 左右,一个时间曲线几乎是平的,Δ=+0.001、p=0.989;另一个在预生成位置有显著峰值,p=0.038。这个对比基本把“纯靠参数量触发相变”压下去了。论文自己把解释指向 instruction tuning 或类似后训练,我觉得这个方向是对的,而且和过去一年很多现象能对上:同一底座模型经过 SFT、DPO、RLAIF 之后,隐藏状态会更早压缩成“回答框架”,尤其在问答、拒答、工具调用这些格式化任务上更明显。我没看到正文披露 Qwen2.5-7B 用的是哪一版检查点、有没有额外对齐步骤,也没看到 probe 训练细节的完整控制项,所以这个结论现在还该限定在“后训练相关”,别急着说成“指令微调创造了知识电路”。
这条结果和一类旧工作也能接上。前几年有不少 truthfulness / uncertainty probing 论文,常见发现是层内已经能读出真假、置信度、拒答倾向;但多数工作盯的是生成中或最终 hidden states。这里把峰值前移到 position 0,意义在于它更贴近解码器真正开始吐字前的内部定势。要是这个现象稳,产品侧会很感兴趣,因为你可以在首 token 前做拦截,代价比生成后再跑 verifier 低得多。问题也正卡在这里:论文自己说 activation steering 沿着 probe 方向推不动,所有模型都纠不正幻觉。这一下很关键。它说明 probe 读到了信号,但信号不是控制杆。很多 interpretability 论文最容易在这一步过度解读:能读出,不等于能改写。
我对数据规模还是有疑虑。552 个标注样本,分到 TriviaQA、Simple Facts、Biography 三个集合,再切 7 个模型和多个生成位置,统计上并不宽裕。Pythia-1.4B 的 p=0.012 和 Qwen2.5-7B 的 p=0.038 当然过线了,但边际不算奢侈。正文也没给出更完整的效应量、置信区间、probe 架构敏感性,至少摘要里没有。要是换一个 probe、换一组 prompt 模板、把 Biography 这种容易受风格影响的数据拿掉,position 0 峰值还在不在,我现在不敢替它打包票。还有一个细节我会盯:所谓“hallucination”在这三类数据里更接近 fact recall failure,不一定覆盖长链推理里那种编造步骤、编造引用、工具调用后胡拼结果。你把这个信号直接迁移到 agent setting,我觉得会掉很多。
不过它还是给了一个实用判断:很多团队把 hallucination 监控放在输出后处理层,像是 reranker、citation checker、self-consistency 投票。这个论文提醒你,若模型规模和后训练条件到了,风险信号在解码前就已出现。工程上更像“pre-flight check”,不是“事后审计”。我一直觉得这条线比事后 verifier 更省算力,也更适合高吞吐服务。只是现在证据只够支持“可检测”,不支持“可干预”。如果后续论文能在更大样本上复现,并把 base / instruct / preference tuning 分开做消融,这个方向会比很多花哨的 mechanistic 叙事更落地。眼下我的结论很简单:这不是 hallucination 被解释了,而是我们终于看到它在某些模型里出现得足够早,早到可以被当成系统信号处理。
HKR 分解
hook ✓knowledge ✓resonance ✓