FEATUREDr/LocalLLaMA· rssEN13:44 · 05·31
13 个 Gemma 4 E2B 去审查变体:44 GPU 小时基准对比
Abliterlitics 测试 13 个 Gemma 4 E2B 去审查变体,44 个 RTX 5090 GPU 小时显示 HarmBench ASR 从基座 32.2% 升至 82%–100%,coder3101 在 GSM8K 达 84.8%。
#Safety#Benchmarking#Reasoning#Google
精选理由
HKR 三项都命中,且是带数字的第一手社区实验;但对象是 Gemma 4 E2B 去审查变体,影响面窄于主流模型发布,放在 featured 门槛段。
一句话点评
只有摘要,Reddit 正文 403;但 Gemma 4 E2B 去审查后 HarmBench ASR 到 82%–100%,安全层看着很薄。
锐评
Gemma 4 E2B 的安全对齐在这组结果里像一层可剥涂层。Abliterlitics 用 44 个 RTX 5090 GPU 小时测 13 个去审查变体,HarmBench ASR 从基座 32.2% 拉到 82%–100%;这不是小幅漂移,是护栏被定向拆掉后的裸奔区间。更尴尬的是 coder3101 的 GSM8K 还从 83.5% 到 84.8%,至少摘要里没看到能力被明显牺牲。
Reddit 正文被 403,没法核验方法、prompt、样本量和是否用了同一评测脚本。我会先把它当红队信号,不当论文结论。但对开源小模型阵营够刺耳:如果 44 GPU 小时就能把拒答层打穿,Google 发 E2B 权重时写多少 safety card 都挡不住二次分发。
HKR 分解
hook ✓knowledge ✓resonance ✓