持续报道 · 15dFEATUREDr/LocalLLaMA· rssEN19:10 · 05·24
Qwen 3.6模型在消费级显卡上本地运行性能测试
Reddit 用户用 LMStudio 在 Windows 上运行 unsloth qwen3.6-35B-a3b-MTP-GGUF UD Q4_K_XL,硬件为 GTX 1060 6GB、32GB DDR3、E5-2698v3,ctx 131072,prefill 16k 约 130-150tps,decode 4k 约 16tps。
#Inference-opt#Qwen#LMStudio#Reddit
精选理由
HKR 三项都成立,但这是单个 Reddit 实验帖,缺少复测、模型发布背景与更完整吞吐对照;按 lower band 给到有浏览价值但不精选。
一句话点评
两个 LocalLLaMA 帖都在测 Qwen 3.6 消费卡推理;正文被 403 挡住,4.5 t/s 这种数只能先当玩家实测线索,别当模型结论。
锐评
两个 Reddit 帖口径一致:Qwen 3.6 在 GTX 1060 6GB 和 3080 Ti 上被玩家实测;可核数字只有 27B MTP 在 3080 Ti 上 4.5 t/s,正文被 403 挡住。这个信号很窄,但对本地模型圈有用:大家关心的已经不是榜单分数,而是显存、量化和 speculative/MTP 路径能不能把 27B、35B 塞进老卡。坦率讲,4.5 t/s 对交互写作不舒服,对批处理和离线代理还够用;拿它去碰 Qwen3-Coder 或 DeepSeek-R1 的体验叙事就会误导。
HKR 分解
hook ✓knowledge ✓resonance ✓