FEATUREDr/LocalLLaMA· rssEN21:35 · 05·20
HalBench:自定义谄媚与幻觉基准测试 4 个前沿模型
HalBench 用 3,200 个虚假前提提示测试 4 个模型,Sonnet 4.6 均分 0.565 第一,Gemini 3.1 Pro 以 0.339 垫底,评分越高代表越能指出假前提。
#Safety#Benchmarking#Alignment#Anthropic
精选理由
HKR 三项都过:标题有自建 HalBench 和模型排名,正文给 3,200 条提示与分数,且触及幻觉/谄媚评测;但来源是单个 Reddit 实验,基准未验证,压在 featured 低段。
一句话点评
只有摘要,没有题集和评分细则;Sonnet 4.6 拿 0.565 第一,先别急着把 HalBench 当成反谄媚能力排名。
锐评
HalBench 的方向对,但现在更像一支探针,不像可引用榜单。摘要给了 3,200 个虚假前提提示,Sonnet 4.6 均分 0.565,Gemini 3.1 Pro 只有 0.339;正文被 Reddit 403 挡住,题目分布、打分器、人评比例都没看到。反谄媚评测最怕把“拒绝用户前提”误奖励成保守废话。Anthropic 模型长期在拒答和纠错上更硬,这个结果符合直觉;但没有公开样例和复现脚本前,别拿它压 Gemini 或 GPT 5.4。
HKR 分解
hook ✓knowledge ✓resonance ✓