23:24
36d ago
FEATUREDarXiv · cs.CL· atomEN23:24 · 03·21
DiscoUQ:用结构化分歧分析量化 LLM Agent 集成不确定性
DiscoUQ 在 5-agent Qwen3.5-27B 系统上,用分歧结构特征做不确定性估计,在 4 个基准上把平均 AUROC 提到 0.802。论文给出三种方法:DiscoUQ-LLM、DiscoUQ-Embed、DiscoUQ-Learn;其中 ECE 为 0.036,优于 LLM Aggregator 的 0.098。真正值得盯的是弱分歧区间:简单投票在这里失效,结构化分歧特征还能保持泛化。
#Agent#Alignment#Benchmarking#Qwen
精选理由
HKR-K 与 HKR-R 命中:论文给出 5-agent Qwen3.5-27B 在 4 个基准上的 AUROC/ECE 提升,也切中多代理系统“何时别信多数投票”的部署问题。HKR-H 偏弱,整篇仍是 arXiv 方法论文,缺少生产验证或外部采用信号,所以放在 all。
编辑点评
DiscoUQ把 5-agent Qwen3.5-27B 的 ECE 压到 0.036,这条我买账;AUROC 只涨 0.011,卖点不在“更准”,在“更会承认自己不准”。
深度解读
DiscoUQ 在 5-agent Qwen3.5-27B 系统上把 ECE 做到 0.036,AUROC 做到 0.802。我的判断很直接:这篇论文的价值不在又刷高了一点判别分数,而是在多代理系统里把“分歧”从投票计数拉回了可建模对象。AUROC 相对最佳基线只多 0.011,这个幅度单看不算炸裂;ECE 从 0.098 降到 0.036,才是更硬的信号。做 agent 的人都知道,线上事故常常不是答错一次,而是系统把低把握答案包装成高置信输出。能不能把不确定性校准好,直接决定你敢不敢让它自动调用工具、自动结束流程、自动拒答。
这篇的思路,其实是在补过去一年多代理工作里一个一直被糊弄过去的洞。多数系统还停在 self-consistency 那套逻辑:采样多条链路,看票数,票高就更信。这个方法便宜,也常常有效,但它默认“分歧只需要计数”。论文这里给出的信号更细:证据重叠、论证强度、分歧深度,加上 embedding 几何里的簇距离、离散度、凝聚度。说真的,这个方向比再加一个 aggregator LLM 更像正路。原因很简单,两个 3:2 的投票结果,语义结构可能完全不同。一种是 3 个答案共享同一条错误前提;另一种是 5 个代理各自抓到部分证据,最后只在表面选项上分叉。前者该降置信,后者未必。只看票数,二者会被压成同一类。
我比较认同他们强调的 weak disagreement 区间。摘要说简单投票在这里失效,结构特征还能泛化,这个判断和工程经验是贴的。真实部署里最烦人的不是 5 比 0 全一致,也不是 1 比 4 明显分裂,而是那种“看着差不多都有理”的局面。代理之间共享底座模型、共享训练语料、共享很多默认偏见,表面上有分歧,内核上却常常是相关错误。把这些相关性拆开看,比继续堆 agent 数量更有意义。过去不少论文喜欢把 3-agent 变 5-agent、5-agent 变 8-agent,再宣称鲁棒性上升。我一直觉得这条路很快会撞墙,因为相关性没处理掉,票再多也只是把同一种错复读更多次。
但我对这篇也有两个保留。第一,正文摘要只给了 5-agent Qwen3.5-27B,没披露更多实验条件。prompt 是否完全独立,温度怎么设,代理是否共享工具轨迹,校准是在同分布还是跨任务迁移,这些都没看到。标题给了 structured disagreement,正文片段没给 feature 抽取成本。假如 DiscoUQ-LLM 需要再调用一轮 LLM 去读五份 reasoning,再抽证据重叠和论证强度,那它在线上未必便宜。校准变好当然是好事,但如果延迟翻倍、token 成本再上一个台阶,很多 agent pipeline 不会买单。
第二,这组结果还困在“同质 ensemble”的舒适区里。5 个代理都基于 Qwen3.5-27B,这比较像同一群学生换了五种答题语气,不像真实生产里的混合系统。真实世界更常见的是异构组合:一个模型擅长检索,一个模型擅长代码,一个 verifier 偏保守,再加一个工具执行器。DiscoUQ 的结构特征如果只能在同底座多采样上稳定,意义会打折。反过来讲,如果它能迁到异构 agent ensemble,上限会高很多。这个我还没查到,摘要也没说。
外部参照也能说明这篇为什么有点意思。过去一年,业内对 uncertainty 的关注明显回来了,但很多工作还是把重点放在 answer-level reward model、verifier、或 scalar confidence head。我记得 OpenAI 和 Anthropic 在一些系统卡或 blog 里都承认过,模型置信分数本身并不稳定,尤其跨任务更差;学术界也早就知道 LLM 的 verbalized confidence 校准很一般。DiscoUQ 这篇等于换了问题表述:不要逼单个模型诚实报概率,先看多个代理怎么彼此冲突,再从冲突结构里读出风险。这条路在方法论上更扎实,因为它少依赖“模型会不会自知”,多依赖“系统有没有暴露矛盾”。
我还想补一句 pushback。AUROC 0.802 虽然不错,但别把它读成“可以放心把 agent 交给自动化”。四个 benchmark 里有 StrategyQA、MMLU、TruthfulQA、ARC-Challenge,这些都是老基准,足够做研究,不足够代表真实 agent workflow。尤其是工具调用、网页浏览、代码执行那类长链任务,错误往往来自环境状态、外部 API、检索污染,不只来自代理间推理分歧。DiscoUQ 如果没在这些 setting 上测,离生产级风险控制还隔着一段。摘要里说 near-zero performance degradation across benchmarks,我接受它说明泛化不错;我不接受把这直接外推到开放环境 agent。
如果你是做 agent orchestration 的,这篇最实用的启发不是换一个更复杂的投票器,而是重构日志层。把代理输出保存成可比较的结构,记录证据引用、论点重合、语义簇分布,再决定是否执行、是否升级到人审、是否触发额外工具。多数团队现在只记 final answer 和 vote count,这套观测面太窄了。DiscoUQ 至少证明了一件事:分歧不是噪声,分歧本身就是信号。
HKR 分解
hook —knowledge ✓resonance ✓
76
SCORE
H0·K1·R1