r/LocalLLaMA· rssEN20:44 · 05·04
Qwen3.6-35B TurboQuant_Plus 实测:192K 上下文跑出 19.43 t/s,但标题的 30-35 t/s 没达到
Reddit 用户测了 Qwen3.6-35B 的 TurboQuant_Plus 量化版,192K 上下文下生成速度 19.43 tokens/秒,标准设置(40K 上下文)是 17.55 t/s、显存占用 7.0GB。TurboQuant 模式显存降到 6.8GB,处理 5,359 tokens 耗时 4 分 35 秒。具体配置是 K 用 q8_0...
#Inference-opt#Code#Reasoning#Qwen
精选理由
这是一条 Reddit 用户实测 Qwen3.6-35B TurboQuant_plus 的配置帖,核心看点是 192K 上下文下 19.43 t/s 且只占 6.8GB 显存,比标准量化省显存还快。正文给出了具体的 KV 和 MoE 放置策略,对本地部署玩家有实操价值。但注意这是单次测试,环境依赖性强,结论不能直接推广到其他模型或硬件。分数 62 合理,属于社区经验分享,不是行业级突破。
一句话点评
Qwen3.6-35B 量化后跑 192K 上下文,速度 19.43 tokens/秒,显存只占 6.8GB,但标题说的 30-35 t/s 没达到。
锐评
Reddit 用户实测 Qwen3.6-35B 的 TurboQuant_Plus 量化方案,192K 超长上下文下生成速度 19.43 tokens/秒,显存占用仅 6.8GB。作为对比,标准设置(40K 上下文)是 17.55 t/s、7.0GB 显存。处理 5,359 tokens 耗时 4 分 35 秒,速度不算快但显存控制很出色。具体配置是 K 用 q8_0、V 用 turbo3、MoE 全跑在 CPU 上。注意标题写的 30-35 t/s 目标没达到,实际 19.43 t/s 是 192K 下的成绩。正文没披露量化后的质量损失,这点先别太激动。对于本地部署 35B 模型跑超长上下文的场景,这个显存占用确实挺省钱,但速度偏慢,适合离线批处理。
HKR 分解
hook ✓knowledge ✓resonance ✓