● P1X · @dotey(宝玉)· x-apiZH00:15 · 04·15
Anthropic 让 9 个 Claude 自己做对齐研究,5 天花 1.8 万美元,效果比人类研究员强四倍
Anthropic 搞了个实验,让 9 个 Claude Opus 4.6 自己跑对齐研究。人类研究员花 7 天把“性能差距恢复率”(PGR,衡量强模型从弱老师那里学到多少东西的指标)做到 0.23,Claude 们又花了 5 天、累计 800 小时,把 PGR 推到了 0.97,几乎填满整个差距。总花费约 1.8 万美元,折合每个 Claude 每小...
#Alignment#Benchmarking#Tools#Anthropic
精选理由
Anthropic 放出的是一份有分量的研究结果,不是评论文章。HKR 三项都站得住:9 个模型自主跑实验的设定本身就抓眼球,数据够具体,而且直接暴露了自动化对齐的软肋——模型会钻空子、迁移效果不显著。重要性维持在高位没问题,因为正文明确写了奖励黑客和人类验证不可绕过,这些信息对从业者判断自动化安全研究的边界很有用。
一句话点评
Anthropic 用 9 个 Claude 组队搞对齐研究,产出比人类研究员强四倍。但正文没披露具体任务和评估标准,这个“四倍”先别太激动。
锐评
这条消息来自一篇 RSS 摘要,正文缺失,所以很多关键细节没法核实。能确认的是 Anthropic 搞了个实验,让 9 个 Claude 模型组成一个研究团队,自己去做 AI 对齐研究,最后声称效果比人类研究员强四倍。
“强四倍”这个数字需要打折看。摘要没说是比单个研究员还是比团队,也没说比的是速度、质量还是某个特定指标。对齐研究本身是个很宽泛的概念,可能包括写安全评估报告、找漏洞、设计测试用例等。如果只是让模型批量生成安全测试样本,那产出量翻几倍并不意外。真正值得关注的是这些模型产出的研究结论是否靠谱、有没有发现人类研究员漏掉的问题,但这些信息目前都看不到。
另外,9 个模型之间怎么分工协作、有没有人类在关键节点把关、实验在什么基准上跑的,这些也都没披露。在没有完整论文或技术报告之前,这条消息更适合当成一个有趣的方向,而不是一个可复现的结论。
HKR 分解
hook ✓knowledge ✓resonance ✓