FEATUREDHacker News 首页· rssEN16:33 · 06·05
Launch HN:General Instinct(YC P26)在边缘设备运行前沿模型
General Instinct 开源 InstinctRazor,将 Qwen3.5-122B-A10B 从约 245GB BF16 MoE 压到 48GiB GGUF,并在 8k 上下文小 GPU 配置下峰值占用约 7.6–8GB VRAM。
#Inference-opt#Fine-tuning#Multimodal#General Instinct
精选理由
HKR 三项都命中:有 122B→8GB 显存的强钩子,也有 245GB BF16→48GiB GGUF 的具体指标;主体是 YC 初创的 Launch HN,影响力还未到同日必写,落在 featured 下沿偏上。
一句话点评
把 122B MoE 塞进 8GB VRAM 很骚,但机器人现场先问 tokens/sec 和热稳定,MMLU-Pro 赢 Gemma-4 还不够。
锐评
General Instinct 把边缘模型的瓶颈从“显存放不下”挪到了“带宽和延迟扛不扛”。Qwen3.5-122B-A10B 从约 245GB BF16 压到 48GiB GGUF,8k 上下文小 GPU 模式峰值 7.6–8GB VRAM;机制也说得清楚:保 router、norm、Gated-DeltaNet/SSM、视觉路径,重压 routed experts,再用 on-policy distillation 补能力。
我买这个方向,不太买“frontier on edge”这个包装。专家从系统 RAM 流式进 GPU,机器人上最怕的不是平均分,而是尾延迟、功耗、热降频和连续运行抖动。它说 MMLU-Pro、GPQA-D 赢 Gemma-4-26B-A4B,但正文没给 tokens/sec、batch、CPU/RAM 带宽、量化细节表。跑得进 8GB 是门票,能不能上机干活还差一组硬指标。
HKR 分解
hook ✓knowledge ✓resonance ✓