FEATUREDr/LocalLLaMA· rssEN22:24 · 04·30
32 块 AMD MI50 老卡跑 Kimi K2.6 模型,生成速度 9.7 token/秒
Reddit 用户 ai-infos 用 32 块 AMD MI50 32GB 显卡(分两台机器,每台 16 卡,走 10G 网线)跑 Kimi K2.6 的 int4 量化版。处理 1.4 万多字的输入时,预处理速度能到 264 token/秒;生成 136 个字的回答时,速度掉到 9.7 token/秒。空载功耗 640W,跑推理时峰值 4,800...
#Inference-opt#Tools#AMD#Kimi
精选理由
这条帖子本身是个 Reddit 上的野路子基准测试,不是官方发布,所以分数不会给太高。但它的钩子很强——用 32 张二手 MI50 攒出一台能跑 Kimi K2.6 的机器,还给出了吞吐、功耗和网络拓扑的实测数据,对想低成本自建推理集群的人有直接参考价值。我会先打个折,因为正文没披露精度损失的具体对比、延迟抖动和长时间稳定性,这些对生产环境很关键。不过就凭它把 AMD 老卡 + vLLM 分布式栈的可行性摆上台面,加上功耗和 PCIe 带宽这两个真实痛点,74 分放在 featured 里是合理的。
一句话点评
32块AMD老卡跑Kimi K2.6,生成速度不到10 token/秒,读得慢但能跑起来,成本党可以看看。
锐评
这条帖子展示了一个极端的低成本大模型推理方案:用32块AMD MI50 32GB老显卡,分两台机器通过10G网线连接,成功跑起了Kimi K2.6的int4量化版。结果挺实在,处理1.4万多字的输入时,预处理速度能到264 token/秒,但生成回答时就慢下来了,只有9.7 token/秒。这个速度大概是什么概念?就是你问它一句话,它要花十几秒才能把回答一个字一个字吐完,实时对话会比较吃力。
功耗数据也给了:空载640W,跑起来峰值4800W。作者自己点明了瓶颈不在算力,而在PCIe带宽和vLLM的分布式堆栈。这其实是个关键信息,说明硬件本身还有余力,但数据在显卡之间倒腾的效率拖了后腿。
不过得打个折,这条信息来自Reddit个人用户,正文没披露测试的具体精度、批处理大小这些关键设置,也没说这9.7 token/秒是稳定输出还是偶尔能跑到。另外,用10G网线连接两台机器,网络延迟对最终速度的影响有多大,帖子里也没量化。所以这个成绩更像是一个可行性验证,告诉你“能跑”,但离“好用”还有距离。如果你手头正好有这批老卡,可以当个参考;要是打算照着采购,建议先算算电费和折腾的时间成本。
HKR 分解
hook ✓knowledge ✓resonance ✓