FEATUREDr/LocalLLaMA· rssEN20:36 · 05·06
Atlas 推理引擎开源,在 DGX Spark 上跑 Qwen3.6-35B-FP8 能稳定跑到每秒 100 多个 token
Avarok 把 Atlas 推理引擎开源了。它用 Rust 和 CUDA 写成,镜像只有约 2.5GB,冷启动不到两分钟。在一台 DGX Spark 上跑 Qwen3.5-35B,实测持续速度约 111 tok/s,作者说比 vLLM 快 3.0 到 3.3 倍。引擎专门为 Blackwell SM120/121 写了内核,支持 NVFP4、FP8 ...
#Inference-opt#Code#Tools#Avarok Cybersecurity
精选理由
我会先打个折:目前只有 Reddit 单帖来源,基准测试也没被第三方复现,所以分数压在了 featured 低位。但这条确实有料——开源推理引擎 Atlas 在 DGX Spark 上跑 Qwen3.5-35B 持续 111 tok/s,镜像才 2.5GB,冷启动不到两分钟,作者说测试时是 vLLM 的 3.0–3.3 倍。真正值得盯的是 Blackwell SM120/121 手写内核、NVFP4/FP8 和 MTP 解码这些底层优化,不是简单套壳。速度、体积、启动时间三个数字都给了,信息密度够,对想本地部署大模型的人有直接参考价值。
一句话点评
一个2.5GB的推理引擎镜像,在DGX Spark上跑35B模型能到111 tok/s,作者说比vLLM快3倍多。但这是单机单卡测试,别急着对标生产环境。
锐评
Avarok把Atlas推理引擎开源了,用Rust和CUDA写成,镜像只有约2.5GB,冷启动不到两分钟。在一台DGX Spark上跑Qwen3.5-35B,实测持续速度约111 tok/s,作者声称比vLLM快3.0到3.3倍。这个速度确实亮眼,但得先打个折:测试环境是单机单卡,没有多用户并发、长上下文或混合负载的压力数据,生产场景下能保持多少还不清楚。
引擎专门为Blackwell SM120/121写了内核,支持NVFP4和FP8量化,还用了MTP解码来提吞吐。这些优化方向是对的,但正文没披露精度损失对比、长文本下的显存占用和延迟抖动,也没给出和其他引擎在相同硬件上的公平对比方法。另外,Reddit原文被网络屏蔽,我们只能看到摘要,无法核实评论区里的实际反馈和潜在坑点。
如果你正好有DGX Spark或者同款Blackwell卡,这个项目值得跑一下看看。但如果是通用部署,先别急着切,等社区把多卡、多模型和压力测试补上再说。
HKR 分解
hook ✓knowledge ✓resonance ✓