03:42
28d ago
FEATUREDarXiv · cs.CL· atomEN03:42 · 04·01
迈向大语言模型中可靠且与真值对齐的不确定性估计
论文将大语言模型不确定性估计的失稳现象形式化为“代理失效”,并指出 UE 指标在低信息条件下会失去区分力。作者提出后处理校准方法 Truth AnChoring(TAC),把原始分数映射为与真值对齐的分数,且称少样本、含噪监督下仍可校准。真正值得盯的是,正文未披露实验数据集、提升幅度与具体比较基线,代码已在 GitHub 公开。
#Safety#Alignment#Benchmarking#GitHub
精选理由
K 命中:论文提出 TAC 这类可复现的方法,并把“低信息条件下 UE 失灵”明确成一个可检验问题。H 与 R 偏弱:标题学术,正文未披露数据集、提升幅度与比较基线,所以更像细分研究更新,进 all 不进 featured。
编辑点评
论文提出 TAC 校准 UE 分数,但正文没给数据集、基线和提升幅度;这更像是在给“自信分数”这套叙事补地基。
深度解读
论文把 LLM 不确定性估计的失稳现象定义为“代理失效”,再用 TAC 做后处理校准;如果这个定义站得住,很多常见 UE 分数都得降级成启发式信号。这个判断我基本认同。现在不少系统还在把 token entropy、self-consistency、verbal confidence 当成“接近真值”的替代物,可一到低信息区间,这些分数经常一起塌。模型不是不知道自己不知道,而是分数根本没接到 truth 这根线上。
我对这篇的兴趣点,不在“又一个 calibration 方法”,而在作者把问题指向了 proxy failure。这个框架比单纯刷 AUROC 更诚实。过去一年里,生成式检索、RAG 评测、agent guardrail 都反复撞到同一堵墙:模型行为信号和事实正确性相关,但相关性不稳,域一换、提示一改、温度一调,曲线就散。很多论文最后只是换个聚合器,或者加一层 judge model。我一直觉得这条路有点过,因为它默认 proxy 会一直有信息量。本文至少在标题和摘要层面,把这个前提拆开了。
但我对作者的叙事还不能完全买账,原因很简单:正文没披露最关键的三样东西。第一,数据集没说。是 TriviaQA、NaturalQuestions、MMLU 这类问答集,还是长上下文、工具调用、多跳检索场景?不同任务里的“低信息”不是一回事。第二,比较基线没说。若只是校准 entropy 或 confidence head,一回事;若连 semantic entropy、p(True) 提示法、consistency-based UE 都比过,分量才够。第三,提升幅度没说。校准后是 ECE 降了 5%,还是 selective QA 的 risk-coverage 曲线明显改善?标题已给出方法名,正文没给这些硬指标,我没法把它当成已验证结论。
说真的,这篇踩中的问题,和过去一年“让模型报置信度”这波热潮是同一件事。OpenAI、Anthropic、Google 都做过不同形式的 uncertainty 或 self-critique 评测,我记得很多结果都显示 verbalized confidence 很容易受提示词和输出风格污染,我没逐条核实具体论文名,但这个共识是有的。要是 TAC 真能用少样本、含噪监督把 raw score 拉回 truth-aligned score,它的价值会更像 calibration layer,而不是新 UE metric。这点很关键,因为后者通常跨模型迁移差,前者反而有机会接进现有栈里。
我的保留意见也在这里:后处理校准往往很吃分布。训练时见过的错误类型、任务结构、答案长度,都会影响映射函数。一个在封闭式 QA 上学出来的 anchor,放到 agent tool use 或法律长文总结里,未必还稳。摘要说 noisy few-shot 也能学,我愿意看,但前提是作者得给出跨域实验,至少要有 out-of-domain 校准退化曲线。没有这部分,TAC 更像本地补丁,不像通用协议。
代码已开源是好事,复现门槛不高。我会先看两件事:仓库里到底支持哪些原始 UE 分数;实验有没有跨模型,至少覆盖一个开源模型和一个闭源 API 输出。如果只在单模型单任务上成立,这篇的贡献还是偏诊断。如果跨域还能稳,那它对 production guardrail 才有实际价值。现在这条信息量有限,我的判断是:问题抓得准,方法方向对,证据还不够硬。
HKR 分解
hook —knowledge ✓resonance —
72
SCORE
H0·K1·R0