FEATUREDr/LocalLLaMA· rssEN14:00 · 05·25
《金融时报》报道了去安全护栏工具 Heretic,称其 10 分钟内就能解除 Meta Llama 3.3 的限制
Reddit 用户分享了一篇《金融时报》的文章,主角是一个叫 Heretic 的工具。这个工具专门用来移除开源模型(比如 Meta 的 Llama 3.3)内置的安全护栏,让模型能回答原本被禁止的敏感问题。文章提到,Heretic 的创建者 Philipp Emanuel Weidmann 说,用这个工具不到 10 分钟就能搞定一个模型。目前他们已经生...
#Safety#Fine-tuning#Financial Times#Heretic
精选理由
Financial Times 用 Heretic 这个工具演示了一把,10 分钟就把 Meta Llama 3.3 的安全限制给卸了。文章说这个工具已经生成了 3500 多个“去审查”模型,总下载量冲到 1300 万次,说明滥用门槛低得吓人。我会先打个折:目前看到的只是 Reddit 上的摘要,不是 FT 的完整报道,也没有可复现的测试记录,所以事实部分先信这么多。但即便只是摘要,这几个数字也足够让做模型安全的人心里一紧了。
一句话点评
FT 报道了一个叫 Heretic 的工具,10 分钟就能卸掉 Llama 3.3 的安全护栏,已生成 3500 多个“去限制”模型,下载量 1300 万次。数字挺大,但正文没披露这些下载是真实使用还是重复抓取。
锐评
这条新闻的核心不是技术多高明,而是门槛低到离谱——10 分钟、一个工具,就能把 Meta 花大力气做的安全对齐给拆了。Heretic 的创建者说已经搞出 3500 多个去限制模型,总下载量 1300 万次,这个量级说明需求不小,很多人就是想要一个“什么都能说”的模型。
但要注意,信息来源是 Reddit 用户转述的 FT 文章,我们拿到的 RSS 源里连原文链接都打不开,直接返回了 403。所以目前能确认的只有 Reddit 帖子本身(46 个赞、45 条评论),FT 原文的具体内容、采访对象、数据口径都没法交叉验证。1300 万下载这个数字尤其需要打折——它可能包含了同一用户多次下载、镜像站点的重复计数,或者只是模型文件被爬虫抓取的次数。
还缺什么:Heretic 具体是怎么绕过护栏的,是直接修改权重还是用提示词注入;Meta 对此有没有回应;这些去限制模型有没有被用于实际作恶的案例。在官方公告或 FT 原文可查之前,这更像一个关于开源模型安全边界失控的信号,而不是一条可以照单全收的事实报道。
HKR 分解
hook ✓knowledge ✓resonance ✓