FEATUREDr/LocalLLaMA· rssEN02:05 · 06·01
我在一张 RTX 3060 上给冻结的 1.4B Mamba 主干挂了 8 个推理专家臂,这是拆解报告
作者用一张 12GB 显存的 RTX 3060 训练了一个叫 Mamba-Titan-1.4B-Reasoning 的模型。做法是把一个 1.4B 参数的 Mamba-1 主干完全冻结,只在第 24、25 层外挂了 8 个可训练的专家臂,组成一个总参数量 2.54B 的混合专家模型,每次推理只激活其中 2 个专家。数学题准确率大概做到 50%。正文没披...
#Reasoning#Fine-tuning#Interpretability#Mamba-Titan-1.4B-Reasoning
精选理由
这是一篇 Reddit 个人实验帖,不是论文,也没有独立复现,所以我会先打个折。但它的价值在于把一次失败解剖写得清楚:在单张 RTX 3060 上,冻结 Mamba 主干、外挂 8 路 MoE 做推理,最后数学准确率卡在 50% 左右。正文没披露训练时长和具体数据集,这点信息有缺口。对想用消费级显卡折腾推理模型的从业者来说,这篇能省掉一次踩坑,属于低门槛、有参考意义的 featured 内容。
一句话点评
用一张3060显卡给冻结的14亿参数模型外挂8个专家臂做推理,数学题正确率约50%,但正文没披露具体测试集和对比基线。
锐评
作者在一张12GB显存的RTX 3060上做了个实验:把一个14亿参数的Mamba主干完全冻结,只在第24、25层外挂了8个可训练的专家臂,总参数量膨胀到25.4亿,但每次推理只激活其中2个专家。这样做的目的是在不改动原模型的前提下,用极低成本给模型加上推理能力。数学题正确率大概做到50%,说明路子能跑通,但正文没披露用的是哪个数学测试集,也没跟原版模型或同尺寸模型做对比,所以这个50%到底算好算坏还不好说。
我会先打个折:这更像一次工程可行性验证,证明在消费级显卡上也能玩混合专家架构的推理增强。但文章本身被Reddit的安全策略挡了,我们拿到的只是摘要,训练细节、路由机制的具体表现、专家臂之间怎么分工这些关键信息都看不到。如果后续能放出完整报告和权重,才值得认真评估。
HKR 分解
hook ✓knowledge ✓resonance ✓