FEATUREDr/LocalLLaMA· rssEN22:16 · 05·03
5 年旧 6GB VRAM 笔记本运行 Qwen3.6-35B-A3B
Reddit 用户 abhinand05 在 5 年旧 Asus ROG Zephyrus G14 上运行 Qwen3.6-35B-A3B,接电约 23 t/s,未接电超 10 t/s。配置为 RTX 2060 Max-Q 6GB、24GB DDR4、Ryzen 7,并给出 llama-server 的 64k 与 128k 上下文参数。真正值得盯的是 CPU MoE、KV cache 量化与 ngram 推测解码组合。
#Inference-opt#Agent#Qwen#Asus
精选理由
Reddit一手实验有明确硬件、速度与上下文参数,HKR三项都成立;但样本是个人跑分,缺少可对照基准与更广影响,停在精选门槛上方。
一句话点评
6GB VRAM 跑 35B MoE 到 23 t/s,这不是玩具炫技,是本地推理栈把旧消费硬件又榨出一代寿命。
锐评
6GB VRAM 能跑 Qwen3.6-35B-A3B 到约 23 t/s,打脸的是“本地模型必须等新显卡”这套叙事。标题和摘要给出的硬件很寒酸:5 年旧 Zephyrus G14、RTX 2060 Max-Q 6GB、24GB DDR4、Ryzen 7;关键不是 35B 参数名,而是 A3B MoE 激活、CPU MoE、KV cache 量化、ngram 推测解码一起把瓶颈拆开。
但这条也别吹成人人可复现。正文被 Reddit 403 拦住,只有摘要里的 llama-server 64k / 128k 参数,没看到量化格式、batch、prompt 长度、采样设置和功耗曲线。和 Ollama 一键跑 7B 不同,这更像 llama.cpp 玩家手调出来的上限样本。它证明本地推理的天花板在软件栈,不证明普通用户已经跨过门槛。
HKR 分解
hook ✓knowledge ✓resonance ✓