FEATUREDr/LocalLLaMA· rssEN20:41 · 05·13
老 GTX 1080 跑约 30B MoE 模型达到 24+ tok/s
用户 mdda 用 i7-6700、GTX 1080、32GB RAM 跑 Qwen 3.6 35B-A3B,128k 上下文约 24 tok/s。关键是 llama.cpp MoE 卸载与 TurboQuant/RotorQuant KV cache 量化。
#Inference-opt#Qwen#Gemma#llama.cpp
精选理由
单帖来源拉低权重,但旧 GTX 1080 + Qwen 3.6 35B-A3B + 128k + 24 tok/s 的组合有强点击点与可复现线索;命中 HKR-H/K/R,属于实践型 featured,而非模型/产品大发布。
一句话点评
GTX 1080 跑 30B MoE 到 24 tok/s,炫技之外的重点是 KV cache 量化正在把“本地长上下文”从显卡神话里拆出来。
锐评
这条最刺眼的不是“老显卡还能跑大模型”,而是 128k 上下文被压进 8GB VRAM 机器的路径已经很工程化。摘要给出 i7-6700、GTX 1080、32GB RAM、Qwen 3.6 35B-A3B、约 24 tok/s,机制是 llama.cpp MoE offloading 加 TurboQuant / RotorQuant KV cache 量化,PCIe 3.0 x16 打满,GPU 利用率只有 40–50%。
我对 24 tok/s 这个数会打折看:Reddit 原文 403,没看到 prompt 长度、batch、量化档位和生成阶段曲线。但方向很清楚,MoE 稀疏激活加 KV 压缩,正在把本地推理瓶颈从“买更大显存”挪到“别让 PCIe 和 cache 爆炸”。
HKR 分解
hook ✓knowledge ✓resonance ✓