FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·29
阶跃星辰开源 Step 3.7 Flash,198B 参数 MoE 模型,活跃参数约 11B,专为智能体工作流做效率优化
阶跃星辰放出了一个开源模型 Step 3.7 Flash,架构是 198B 参数的 MoE(混合专家),实际干活时只激活大约 11B 参数,所以跑起来相对轻量。上下文窗口给到 256K,能读图、读文档,也能直接生成代码或调用工具。它在 ClawEval-1.1 上拿了 67.1 分,SimpleVQA Search 上 79.2 分,这两个榜目前排第一...
#Agent#Multimodal#Tools#StepFun
精选理由
这条发布的核心卖点是“大模型的身子,小模型的成本”,198B MoE 只激活 11B 参数,对想把模型塞进智能体流程的人吸引力很直接。256K 上下文和 ClawEval-1.1 的 67.1 分给了可查的硬数字,不是纯宣传。不过正文没提独立评测和实际延迟数据,这点先别太激动。整体信息量够、有记忆点,放在 featured 合适。
一句话点评
198B 参数只激活 11B,跑起来省资源,但两个榜第一的含金量得看对手是谁。
锐评
阶跃星辰这次放出的 Step 3.7 Flash,核心卖点是“大模型的身子,小模型的饭量”——198B 参数的 MoE 架构,实际干活只激活约 11B 参数,意味着推理成本比同体量模型低不少。256K 上下文窗口加上能看图、读文档、调工具,定位很明确:让模型直接进业务流程干活,而不是只聊天。
ClawEval-1.1 拿 67.1 分、SimpleVQA Search 拿 79.2 分,两个榜都排第一,但正文没披露对比了哪些模型、差距有多大。τ2-bench 工具调用可靠性超过 98% 这个数字看着漂亮,同样缺具体测试条件和对手数据。模型兼容 Claude Code 和 MCP 协议,对已有工具链的团队来说接入成本低,Mac Studio M4 Max 能本地跑也是个加分项。
目前缺的信息:推理延迟、实际吞吐量、多模态任务的具体表现边界,以及除了这几个榜之外更通用的评测成绩。开源用 Apache 2.0 许可,商用友好,但能不能在生产环境稳定跑起来,还得看社区后续的实测反馈。
HKR 分解
hook ✓knowledge ✓resonance ✓