FEATUREDAI HOT 精选· aihot-apiZH19:22 · 05·07
冻结模型里藏着可读的行为信号,Cygnus 靠适配器把 Qwen-32B 的 ARC 得分从 82% 拉到近 95%
Proprioceptive AI 搞了个叫 Cygnus 的技术,给已经冻结的大模型外挂一个自感知适配器,不重新训练就能读出模型内部残留的行为信号。做法是把隐藏状态投影到一个用 gl(4,R) 李代数定义的数学空间里,从中分离出他们称为“暗模式”的精度信号。拿 Qwen-32B 试了一下,只用一张 RTX 3090,ARC-Challenge 准确率...
#Inference-opt#Interpretability#Benchmarking#Proprioceptive AI
精选理由
HKR 三项都成立:12.77 个点的提升数字扎实,李代数投影的做法够新,压缩 90% 视觉 Token 对实际部署很省钱。但来源是 X 上的帖子,正文没给出完整评测集和对照实验,复现性存疑,所以只给低 featured。真正值得盯的是后续有没有第三方复现,如果复现成立,这个“冻结模型+适配器”的省钱路线对多模态推理会是实打实的利好。
一句话点评
Qwen-32B 在 ARC-Challenge 上从 82.2% 跳到 94.97%,只靠外挂适配器、不重新训练,一张 3090 就跑得动。但正文没披露其他评测集和对照组,这点先别太激动。
锐评
这条消息的核心卖点是:不用重新训练大模型,只靠一个外挂适配器就能把准确率拉高十几个点。做法是把模型内部的隐藏状态投影到一个用 gl(4,R) 李代数定义的数学空间里,从中分离出他们叫“暗模式”的精度信号。听起来像从模型已经算出来的东西里,把原本没被用上的有用信息给捞了出来。
数字确实好看:Qwen-32B 在 ARC-Challenge 上从 82.2% 提到 94.97%,而且只用了一张 RTX 3090,成本门槛很低。他们还声称适配器会覆盖 3B 到 405B 的多款模型,服务节点能扛 5 万并发,本周末上线。
但这里缺的东西不少。正文只给了一个基准的成绩,没提其他常见评测集的表现,也没说跟微调或提示工程等常规手段的对比。ARC-Challenge 本身是个选择题集,单点提升不一定代表通用能力变强。另外,“暗模式”这个概念听起来挺玄,论文虽然公开了,但还没经过同行评议和独立复现。如果是真的,这确实是一条省钱又省算力的路子;但在更多人跑通之前,我会先打个折。
HKR 分解
hook ✓knowledge ✓resonance ✓