FEATUREDr/LocalLLaMA· rssEN12:55 · 05·03
论文称用低成本 FPGA 跑 Qwen3-30B-A3B Q4 推理,生成速度 18 t/s,量产成本预计 150 美元
这篇论文讲的是 Hummingbird+,用低成本 FPGA 跑大模型推理。他们拿 Qwen3-30B-A3B 的 Q4 量化版测试,生成速度能到每秒 18 个 token,板子带 24GB 显存,作者说量产的话成本能压到 150 美元左右。不过帖子正文没披露具体是哪款 FPGA、功耗多少、测试条件是什么,Reddit 原帖还被网络屏蔽了,看不到讨论细...
#Inference-opt#Qwen#Research release
精选理由
这篇论文的钩子很直接:一块预计量产成本 150 美元的 FPGA,能把 Qwen3-30B-A3B 的 Q4 量化版跑到每秒 18 个 token,配 24GB 内存。对想本地跑大模型又嫌显卡贵的人来说,这个数字挺诱人。但我会先打个折——正文没披露用的是哪款 FPGA,也没给功耗数据,评测条件同样空白。没有这些,18 t/s 是在什么负载、什么精度损失下跑出来的就说不清。所以这条值得关注,但别急着下结论,等他们把板卡型号和功耗补上再说。
一句话点评
150 美元 FPGA 跑 30B 模型到 18 t/s,数字诱人但正文没给芯片型号和功耗,先打七折看。
锐评
这条消息来自 Reddit,原帖被网络屏蔽,我们只能看到标题和摘要,看不到论文全文和讨论。标题说 Hummingbird+ 用低成本 FPGA 跑 Qwen3-30B-A3B 的 4-bit 量化版,生成速度每秒 18 个 token,板载 24GB 内存,量产成本预计 150 美元。这个价格如果属实,比同显存的显卡便宜一大截,对想在家跑大模型的玩家很有吸引力。
但关键信息全是缺口。正文没说是哪款 FPGA,不同型号的能效和实际采购价差很远。也没提功耗、散热方案、batch size 和 prompt 长度,这些直接决定 18 t/s 在真实场景里还剩多少。另外,24GB 是板载总内存还是模型可用内存,也没写清楚。Reddit 讨论被屏蔽,看不到社区有没有扒出更多细节或质疑。
我会先观望。如果后续有完整论文或第三方实测,重点看功耗墙和长上下文下的速度衰减。150 美元跑 30B 模型听起来很美,但在看到芯片型号和独立复现之前,这个数字更适合当个念想。
HKR 分解
hook ✓knowledge ✓resonance ✓