FEATUREDAI HOT 精选· aihot-apiZH14:36 · 05·09
Redis 作者用几千行 C 代码把 DeepSeek V4 Flash 塞进 MacBook,跑出 27 tok/s
Antirez 开源了一个叫 ds4 的推理引擎,专门给 DeepSeek V4 Flash 用。代码只有几千行 C,能在 128GB 内存的 MacBook Pro 上跑 100 万 token 上下文的模型。他用了三招:对 MoE 专家做不对称 2-bit 量化来压缩模型体积;把 KV Cache 搬到高速 SSD 上,绕开内存不够的问题;再给苹果...
#Inference-opt#Antirez#Redis#DeepSeek
精选理由
Antirez 开源了一个叫 ds4 的原生推理引擎,几千行 C 代码,在 128GB 内存的 MacBook Pro 上跑 DeepSeek V4 Flash,1M 上下文实测跑到 27 tok/s。我会先打个折,这个速度是在特定硬件和模型上跑出来的,换台机器不一定能复现,但至少证明了不用显卡也能把大模型跑起来。正文没披露量化精度和功耗,这点先别太激动。整体看,这是一个很强的开源推理信号,对关注本地部署和隐私的团队有参考价值。
一句话点评
Redis 作者用几千行 C 代码把 DeepSeek V4 Flash 塞进 MacBook,27 token/秒,但量化压缩和 SSD 换内存的代价正文没提。
锐评
Antirez 开源的这个 ds4 推理引擎,核心是把大模型跑在个人电脑上这件事做成了。他用三招:对 MoE 专家做不对称 2-bit 量化,把模型体积压下来;KV Cache 不放在内存,而是搬到高速 SSD 上,绕开 128GB 内存不够用的问题;再针对苹果芯片做纯 Metal 优化。结果是在 MacBook Pro 上跑 100 万 token 上下文的 DeepSeek V4 Flash,实测每秒 27 个 token。
这个速度能读,但离实时对话还有距离。正文没披露量化后模型效果掉了多少,也没说 SSD 读写延迟对长上下文推理的稳定性影响。27 tok/s 是在什么负载下测的、有没有批处理,这些关键信息都缺。我会先打个折:工程上很漂亮,但别急着把它当生产环境方案。
还缺一个对比:同样硬件跑其他量化方案是什么速度?如果只是针对 DeepSeek V4 Flash 特化,通用性就有限。另外,几千行 C 代码维护成本不低,后续模型更新能不能跟上也是问题。
HKR 分解
hook ✓knowledge ✓resonance ✓