r/LocalLLaMA· rssEN23:38 · 04·20
DiffusionLLM:Inception Mercury 2 在 NVIDIA H100 GPU 上达 11,000 tokens/s
标题称 DiffusionLLM 的 Inception Mercury 2 在 NVIDIA H100 GPU 上达到 11,000 tokens/s。正文实际只有 Reddit 403 拦截页,未披露测试批大小、精度设置、并发条件或基线模型。真正该盯的是复现条件;现在能确认的只有这是一条吞吐声明。
#Inference-opt#DiffusionLLM#NVIDIA#Commentary
精选理由
HKR-H 和 HKR-R 成立:11,000 tokens/s 的标题够抓人,也对应推理成本。HKR-K 不成立,因为可见正文只有 Reddit 403 页,除吞吐数字外没有方法、设置或对比;按零来源硬排除处理,分数封顶 39。
HKR 分解
hook ✓knowledge —resonance ✓