FEATUREDr/LocalLLaMA· rssEN19:37 · 04·18
用户分享 Qwen 3.6 在双 RTX 3090 上的 vLLM 部署配置与性能数据
Reddit 用户用两张 RTX 3090(共 48GB 显存)部署了 Qwen 3.6 的 35B 参数模型(激活参数仅 3B,靠 AWQ 4-bit 量化压到 20GB 左右),配合 vLLM 和 Docker,开了 65,536 token 的超长上下文。实测生成速度:短文本(2000 token)103 token/秒,长文本(32,768 t...
#Inference-opt#Tools#Reasoning#NVIDIA
精选理由
HKR-K 靠的是可复现的配置参数和 d2000/d32768/d63000 三档吞吐数据;HKR-R 因为双 3090 本地推理正好卡在成本和上下文长度的真实权衡点上。HKR-H 偏弱,来源也只是单条 Reddit 帖子,所以定 all 而不是 featured。
一句话点评
一张 RTX 5090 跑 Qwen3.5 27B 模型,vLLM 部署能到每秒 77 个 token,速度挺快,但满血 256k 上下文跑不起来,只能到 218k。
锐评
这条分享来自 Reddit 用户,他在一张 32GB 显存的 RTX 5090 上,用 vLLM 部署了 Qwen3.5 27B 的 NVFP4 量化版。跑出 77 tps 的速度,作者自己算了笔账:显卡带宽 1.5 TB/s,模型大小 18GB,这个速度基本是这张卡的物理上限了,没多少优化空间。
配置里有两个关键点:一是必须打一个修复 KV 缓存计算的补丁,不然跑不起来;二是用了 flashinfer 注意力后端和 fp8 的 KV 缓存来省显存。即便如此,上下文窗口也只能开到 218k,离标称的 256k 还差一截。作者试过旧版 vLLM 能跑满,但速度会掉,说明新版推理框架的优化和长上下文支持还没完全对齐。
这条信息对想在家用旗舰卡上跑 27B 模型的人有参考价值,但要注意:作者明确说模型卡里推荐的那个蒸馏版效果不好,他换成了纯文本版,没有图像处理能力。另外,并发两路请求时速度会明显下降,正文没给具体数字。
HKR 分解
hook ✓knowledge ✓resonance —