FEATUREDr/LocalLLaMA· rssEN21:15 · 05·08
MTP与TurboQuant优化使Qwen3.6-27B在RTX4090上达80+tokens每秒
indrasmirror 在单张 RTX 4090 上运行 Qwen3.6-27B-Heretic-v2,262K 上下文下用 TBQ4_0 KV cache 和 MTP draft 3,从 43 t/s 优化到 80-87 t/s,MTP draft 接受率约 73%。
#Inference-opt#Code#Qwen#NVIDIA
精选理由
HKR 三项都命中,且是带数字的第一人称实验;但来源是 Reddit 单帖,偏本地推理优化,影响面低于正式开源框架或大厂发布,压在 featured 门槛上方。
一句话点评
两条都是 LocalLLaMA 标题链,54 t/s 很香,但正文 403;我先把它当民间复现线索,不当 Qwen 3.6 27B 的稳定结论。
锐评
2 条覆盖都来自 reddit-localllama,口径一致指向 Qwen 3.6 27B MTP 在 V100 32GB 跑到 54 t/s,但正文被 403 挡住,缺少量化精度、batch、上下文长度和解码参数。
我不买“27B 老卡起飞”的标题兴奋点。MTP 的价值在推理时吞吐,不在模型本身突然变小;没有给出 fp16、4bit 还是 GGUF,也没有说明 54 t/s 是单用户短上下文还是长上下文续写。拿 V100 32GB 跑 27B,本来就会被显存和带宽卡住;如果这数是真的,工程含金量在 serving path,而不是 Qwen 参数规模。
HKR 分解
hook ✓knowledge ✓resonance ✓