FEATUREDr/LocalLLaMA· rssEN22:22 · 05·17
Android 上运行 LLM:Snapdragon 8 Elite 的 MoE 体验
Reddit 用户在 24GB RAM 的 Honor Magic 7 Pro 上测试 MoE LLM,Q4 量化下 LFM2-24b-a2b 约 24 token/s,Gemma 约 11 token/s,当前 CPU 推理仍快于 NPU/GPU。
#Inference-opt#Benchmarking#Qualcomm#Honor
精选理由
HKR 三项都命中:这是具名 Reddit 实测,有硬件、量化与 token/s 数字;但样本单一、来源权威性弱,压在精选低段。
一句话点评
只有摘要,没有原帖细节;24GB 安卓机上 Q4 MoE 跑到 24 tok/s,端侧 LLM 的瓶颈更像运行时,不是参数量。
锐评
24 tok/s 的 LFM2-24b-a2b 已经把安卓端侧推理拉进可用区,别再只拿“手机跑不动大模型”当默认前提。摘要给出的条件很硬:Honor Magic 7 Pro、Snapdragon 8 Elite、24GB RAM、Q4 量化,Gemma 约 11 tok/s,MoE 模型反而跑到约 24 tok/s。
有意思的是 CPU 仍快过 NPU/GPU,这点比 token 数更刺眼。Qualcomm 的 AI Engine 卖点讲了很久,但 LocalLLaMA 这类实测常撞在内存调度、算子覆盖、runtime glue 上。原帖被 403,batch、上下文长度、温度、具体后端没披露;我会把它看成端侧 MoE 路线的正信号,也会对“NPU 会接管手机 LLM”这句营销话打个折。
HKR 分解
hook ✓knowledge ✓resonance ✓