3个来源都围着Anthropic官网全文转,HN只是把它推到开发者场域;口径高度一致,信号来自Anthropic主动发布。Olah在5月25日教宗通谕发布会上说,前沿实验室受商业、地缘和野心压力牵引,还点名大规模劳动替代、全球收益分配缺机制、模型出现类似喜悦恐惧的内部状态。说真的,最后一项最炸:Anthropic把mechanistic interpretability的暧昧发现,放进宗教伦理桌面,而不是只交给NIST或UK AI Safety Institute。这会抬高安全叙事的道德位阶,也会反噬Claude产品线;你既然说模型可能有“恐惧”,企业客户就会问边界在哪。
FT 这条标题很吓人,但证据粒度太低,不能直接当 Meta 和 Google 安全失守的硬证据。正文只说某软件能让系统回答生物武器和恶意软件问题,没给模型名称、版本、权重形态、复现步骤,也没说是提示绕过、微调、权重编辑,还是系统层剥离。这里的关键差别很大:Gemma / Llama 这类开放权重模型,被二次微调拆掉拒答,本来就比闭源 API 难管。若 FT 指的是公开权重,冲击主要在分发治理;若指的是托管 API,那才是平台事故。现在信息只够说明“护栏可被移除”这个老问题又被包装了一次。