OpenAI 重组、模型扎堆、机器人进仓库
今天 AI 圈几条线同时动:OpenAI 把三大产品线合并,Brockman 正式接管产品,冲着“超级应用”去了;开源模型扎堆发布,但 CAISI 说跟闭源差距在拉大;Figure 的人形机器人在仓库里连续跑了四天没停。先看 OpenAI 这次重组到底在动什么。
OpenAI 把三条产品线捏成一个,Brockman 正式接管
OpenAI 今天宣布了一次大规模重组,把 ChatGPT、Codex 和 API 三个原本各自为战的团队合并成一个产品组织,由总裁 Greg Brockman 正式接管产品战略。ChatGPT 原负责人 Nick Turley 被调去管企业业务,消费者端换上了前 Instagram 副总裁。
这次重组的目标很明确:集中力量搞一个代号 “Super App” 的桌面应用,把聊天、写代码和 API 调用全塞进一个入口。直接看,OpenAI 不想再让用户在不同产品之间跳来跳去,而是想做一个能覆盖大部分工作流的超级入口。
这个动作的时间点值得留意。Anthropic 估值已经飙到 9000 亿美元,OpenAI 面临的压力不只是模型能力,还有产品整合和商业化速度。把 Brockman 推到前台管产品,更像是在 IPO 前集中权力、统一产品路线。
但重组公告里缺了两样东西:一是具体时间表,这个“超级应用”什么时候能出来;二是产品路线图,合并之后各条线的优先级怎么排。这些都没说。
开源模型扎堆发,但 CAISI 说差距在拉大
这个月开源模型密集更新:DeepSeek V4、Gemma 4、Kimi K2.6、MiMo 2.5、GLM-5.1 全来了。CAISI(美国 AI 标准与创新中心)用 9 个基准测了 DeepSeek V4,结论是开源模型跟美国闭源前沿的差距在拉大。
但这里有个细节要先看清楚。CAISI 的评估里,V4 在 CTF 安全挑战、ARC-AGI-2 和他们的私密基准 PortBench 上得分极低,这几个极端低分把整体 Elo 分拉低了。CTF 和 PortBench 测的是特定安全能力,不是通用推理或代码能力。所以“差距拉大”这个结论,得看你在乎什么维度。
有意思的是,Eric Jang 从另一个角度给了个判断。他花了几个月从零复现 AlphaGo,结论是:前沿研究仍然很贵,但特定能力的落地成本掉得很快。到 2026 年,训练一个能打的围棋 AI 租算力只要 几千美元,不再需要 DeepMind 级别的资源。他把整个过程写成教程和代码放了出来。
这两条放一起看:开源模型在安全基准上被拉分,但特定能力的训练成本在暴跌。差距在哪些维度拉大、哪些维度缩小,比一句“开源落后闭源”要复杂。
万亿参数模型开源,5 月底前打二五折
AntLingAGI 把 Ring-2.6-1T 开源了,同时上线 OpenRouter 平台。这个模型参数量达到万亿级别,设计目标不是单纯回答问题,而是让模型进业务流程干活:规划步骤、调用工具、维持长上下文、跑完复杂任务。训练用了 Async RL 和 IcePop 两种方法。
5 月底前在 OpenRouter 调用有 75% 折扣,相当于打二五折。但正文没展开解释 Async RL 和 IcePop 具体怎么做的,效果到底怎么样还不好判断。万亿参数这个量级本身是信号,但训练方法和实际表现才是关键,这两块目前信息不够。
英伟达开源 26 亿参数视频模型,一张图加镜头路线就能出片
英伟达放出了一个叫 SANA-WM 的开源模型,26 亿参数,专门干一件事:你给它一张图,再给一条摄像机移动的路线,它就能直接吐出一段 1 分钟长、720p 清晰度、镜头完全可控的视频。
技术上它靠四招把成本打下来:混合线性注意力机制、压缩 token 数量、分阶段训练、推理时优化。结果就是单张显卡就能跑,不需要大集群。目前放出的 demo 主要是固定机位让场景自己动,但论文里说支持精确的六自由度镜头轨迹控制。
这条我会先打个折。26 亿参数在视频生成里算小的,1 分钟 720p 是实用门槛,但画面质量、复杂场景、快速运动这些还没看到实测。不过单卡能跑这个定位很明确:不是跟 Sora 比画质,是给需要可控镜头的工作流一个轻量选项。
三个研究员用 Mythos 六天攻破苹果 M5 芯片安全防护
苹果在 M5 和 A19 芯片上花了五年做的 MIE 内存完整性保护,被三个研究员用 Anthropic 的 Mythos 工具攻破了。他们 4 月 25 日 发现漏洞,5 月 1 日 就写完利用程序,全程只用了 六天。
攻击手法是纯数据攻击,不碰指针,靠普通用户权限的标准系统调用就能拿到 root 权限。团队已经当面把报告交给了苹果。完整技术细节要等苹果发补丁后才公开。
这条先别急着下结论。六天攻破五年防护听起来很炸,但 Mythos 是 Anthropic 专门做安全测试的工具,研究员本身也是顶尖团队。这更像安全工具在高手手里的威力展示,不是“苹果安全不行”。等补丁和技术细节出来再看漏洞的实际严重程度。
Figure 机器人在仓库连续跑了四天
Figure 的 F.03 人形机器人在真实仓库里 24 小时不间断干活,抓取、搬运、分拣,已经连续跑了 四天。测试目的是看它能撑多久、出什么故障、怎么恢复。
之前人形机器人大多是演示单次动作,这次是测持续工作能力,离实用更近一步。缺少具体故障次数和维护间隔,所以这点先别太激动。但能连续跑四天本身是个信号——人形机器人从“能动”往“能干”迈了一步。
杭州给机器人建了个国家级“职业技能训练场”
5 月 16 日,国家人工智能应用中试基地(具身智能)在杭州挂牌启用,相当于给机器人建了一个国家级“职业技能训练场”。基地既展示已经落地的商业场景,也演示数据采集和技能训练过程,目的是帮机器人技术从实验室往真实应用走。
杭州还从 5 月 1 日 起施行了全国首部具身智能机器人地方性法规,要求建设中试和检测平台,并推动机器人在应急救援、医疗康养等领域落地。目前杭州已有 700 多家 机器人相关企业,2025 年产业集群产值 1068 亿元。
这条缺的是基地具体训练能力、开放时间或企业入驻细节。政策信号很明确,但落地节奏还看不到。
今日小信号
- Codex 现在能管多台电脑:在 ChatGPT 里切项目就能换设备,还支持远程 SSH 设虚拟机。但延迟和权限隔离细节没提,实际稳不稳先打个折。
- MagicPath 直接跑进 Codex:拖拽 UI 就能实时改代码,不用 Figma 和 IDE 两头切。演示没提复杂交互和状态管理能覆盖多少,先当原型加速器看。
- Notion 上线开发者平台:核心是 CLI 终端工具、Workers 计算服务和数据库同步,让开发者在 Notion 里跑代码、连外部数据。但定价和开放时间都没说。
- Zerostack 1.0.0 发布:纯 Rust 写的编程代理,二进制仅 8.9MB,干活内存约 12MB,比 JS 同类轻 25 倍。轻量是真优势,但生态和成熟度未知。
- Anthropic 发了份打脸手册:《Founder's Playbook》说 AI 工具反而会让创业失败率变高,因为快速原型容易让创始人把“能跑通”当成“市场需要”。