r/LocalLLaMA· rssEN09:10 · 05·09
有人用两张专业卡跑 MiMo-V2.5 量化版,测了 104 万 token 上下文
LegacyRemaster 在本地用 llama-server 跑了 MiMo-V2.5 的 IQ3_S 量化版,上下文拉到 1,048,576 token。机器是双卡:RTX 6000(96GB 显存)加 W7800(48GB 显存),49 层全卸到 GPU,开了 FlashAttention,16 线程。他的体感是,超过 5 万 token 后,...
#Inference-opt#Code#MiMo#MiniMax
精选理由
HKR三项都过:钩子是104万上下文实测,50k后比MiniMax稳但会循环,直接戳中本地模型用户对长上下文稳定性的焦虑;知识给了完整硬件和软件配置,但没披露速度或显存占用;共鸣点在于长上下文和显存成本是社区常聊的话题。不过这只是单次Reddit本地推理测试,不是模型发布或产品更新,范围太窄,所以定在all层。
一句话点评
有人在双卡(RTX 6000 96GB + W7800 48GB)上把 MiMo-V2.5 的量化版跑到了 100 万 token 上下文,5 万 token 后速度比 MiniMax 稳。但温度低于 0.2、重复惩罚 1.1 时会循环,说明长文生成质量还有坑。正文被 Reddit 屏蔽了,没披露具体速度和显存占用,如果是真的,这个硬件门槛对本地部署不算友好。
HKR 分解
hook ✓knowledge ✓resonance ✓