持续报道 · 1dFEATUREDr/LocalLLaMA· rssEN18:53 · 06·06
Gemma 4 12B QAT 模型在 RTX 4070 Super 上实现 135.7 token 每秒
Reddit 用户 janvitos 用 RTX 4070 Super 12GB、llama.cpp Gemma 4 MTP 分支和双 GGUF 模型,在 mtp-bench.py 9 项测试中达到聚合 65.78% 接受率,单项最高 135.7 tok/s。
#Inference-opt#Code#Google#Unsloth
精选理由
单帖基准但有硬数字和可复现配置,HKR-H/K/R 都成立;来源是 Reddit、范围限本地推理优化,压在 60–71 档,不进精选。
一句话点评
3 条都来自 LocalLLaMA,只有标题给出 12GB、120 tok/s、1.2-1.8x;我先把它看成社区复现实验,不当成 Gemma 4 性能定论。
锐评
3 条覆盖都来自 LocalLLaMA,口径集中在 Gemma 4 12B QAT + MTP:12GB 显存、120 tok/s、3090 上 1.2-1.8x,另一个标题说最高 33%。这不是独立媒体交叉验证,更像同一社区在测同一套推理路径。
我对这条的判断很简单:MTP 的价值开始从论文指标落到本地吞吐,但标题数字还缺少 batch、上下文长度、采样参数和后端版本。12B 模型能在 12GB 跑到这个速度,对 llama.cpp / exllama 用户很香;可别拿它直接压 DeepSeek-R1 蒸馏或 Qwen 小模型,任务质量没披露。
HKR 分解
hook ✓knowledge ✓resonance ✓