FEATUREDHacker News 首页· rssEN16:33 · 06·05
General Instinct 开源 InstinctRazor:把 245GB 的大模型压到 48GB,能在本地设备上跑
General Instinct 开源了 InstinctRazor,一个专门给边缘设备用的模型压缩方案。他们拿 Qwen3.5-122B-A10B 开刀,这个模型原本是 BF16 格式的混合专家模型(MoE),体积大约 245GB。压缩后变成一个 48GiB 的 GGUF 文件,比 Gemma-4-26B-A4B 还小,但在 MMLU-Pro 和 G...
#Inference-opt#Fine-tuning#Multimodal#General Instinct
精选理由
我会先打个折:这是 YC 的 Launch HN,不是独立评测,性能数据得等第三方复现。但亮点很实在——把一个 245GB 的 MoE 模型压到 48GiB,还能在消费级显存上跑 8k 上下文。正文没披露压缩后推理速度有多快,也没说 MMLU-Pro 具体掉了多少分,这点先别太激动。不过思路本身对想在本地跑大模型的团队挺省钱,所以放在 featured 合适。
一句话点评
把245GB的大模型压到48GB,跑分还反超Gemma,但正文没给延迟和实际设备上的推理速度,这点先别太激动。
锐评
General Instinct 开源了一套模型压缩方案,拿 Qwen3.5-122B-A10B 开刀。这个模型原本是混合专家架构(MoE),BF16 格式下体积约 245GB,他们压成了一个 48GB 的 GGUF 文件,比 Gemma-4-26B-A4B 还小,但在 MMLU-Pro 和 GPQA 这类测试里分数更高。
他们的做法是区别对待模型的不同部分:对路由器、归一化层、视觉通路这些一直干活的组件保留精度,对轮流激活的专家模块则下狠手压缩,再用偏好数据做蒸馏把压掉的能力补回来。另外还支持一种“小显存模式”,专家模块从系统内存里按需调取,8k 上下文窗口下显存峰值占用约 7.6-8GB。
不过正文没披露几个关键信息:压缩后模型在真实边缘设备上的首 token 延迟和生成速度是多少,也没说这套蒸馏流程需要多少算力和样本。压缩比和跑分好看,但能不能在机器人这类对实时性要求高的场景里用起来,还得看后续有没有实测数据。
HKR 分解
hook ✓knowledge ✓resonance ✓