AX 的 AI 日报 · 2026-05-16重组与落地

OpenAI 重组、模型扎堆、机器人进仓库

2026年5月16日

今天 AI 圈几条线同时动：OpenAI 把三大产品线合并，Brockman 正式接管产品，冲着“超级应用”去了；开源模型扎堆发布，但 CAISI 说跟闭源差距在拉大；Figure 的人形机器人在仓库里连续跑了四天没停。先看 OpenAI 这次重组到底在动什么。

OpenAI 把三条产品线捏成一个，Brockman 正式接管

OpenAI 今天宣布了一次大规模重组，把 ChatGPT、Codex 和 API 三个原本各自为战的团队合并成一个产品组织，由总裁 Greg Brockman 正式接管产品战略。ChatGPT 原负责人 Nick Turley 被调去管企业业务，消费者端换上了前 Instagram 副总裁。

这次重组的目标很明确：集中力量搞一个代号 “Super App” 的桌面应用，把聊天、写代码和 API 调用全塞进一个入口。直接看，OpenAI 不想再让用户在不同产品之间跳来跳去，而是想做一个能覆盖大部分工作流的超级入口。

这个动作的时间点值得留意。Anthropic 估值已经飙到 9000 亿美元，OpenAI 面临的压力不只是模型能力，还有产品整合和商业化速度。把 Brockman 推到前台管产品，更像是在 IPO 前集中权力、统一产品路线。

但重组公告里缺了两样东西：一是具体时间表，这个“超级应用”什么时候能出来；二是产品路线图，合并之后各条线的优先级怎么排。这些都没说。

开源模型扎堆发，但 CAISI 说差距在拉大

这个月开源模型密集更新：DeepSeek V4、Gemma 4、Kimi K2.6、MiMo 2.5、GLM-5.1 全来了。CAISI（美国 AI 标准与创新中心）用 9 个基准测了 DeepSeek V4，结论是开源模型跟美国闭源前沿的差距在拉大。

但这里有个细节要先看清楚。CAISI 的评估里，V4 在 CTF 安全挑战、ARC-AGI-2 和他们的私密基准 PortBench 上得分极低，这几个极端低分把整体 Elo 分拉低了。CTF 和 PortBench 测的是特定安全能力，不是通用推理或代码能力。所以“差距拉大”这个结论，得看你在乎什么维度。

有意思的是，Eric Jang 从另一个角度给了个判断。他花了几个月从零复现 AlphaGo，结论是：前沿研究仍然很贵，但特定能力的落地成本掉得很快。到 2026 年，训练一个能打的围棋 AI 租算力只要 几千美元，不再需要 DeepMind 级别的资源。他把整个过程写成教程和代码放了出来。

这两条放一起看：开源模型在安全基准上被拉分，但特定能力的训练成本在暴跌。差距在哪些维度拉大、哪些维度缩小，比一句“开源落后闭源”要复杂。

万亿参数模型开源，5 月底前打二五折

AntLingAGI 把 Ring-2.6-1T 开源了，同时上线 OpenRouter 平台。这个模型参数量达到万亿级别，设计目标不是单纯回答问题，而是让模型进业务流程干活：规划步骤、调用工具、维持长上下文、跑完复杂任务。训练用了 Async RL 和 IcePop 两种方法。

5 月底前在 OpenRouter 调用有 75% 折扣，相当于打二五折。但正文没展开解释 Async RL 和 IcePop 具体怎么做的，效果到底怎么样还不好判断。万亿参数这个量级本身是信号，但训练方法和实际表现才是关键，这两块目前信息不够。

英伟达开源 26 亿参数视频模型，一张图加镜头路线就能出片

英伟达放出了一个叫 SANA-WM 的开源模型，26 亿参数，专门干一件事：你给它一张图，再给一条摄像机移动的路线，它就能直接吐出一段 1 分钟长、720p 清晰度、镜头完全可控的视频。

技术上它靠四招把成本打下来：混合线性注意力机制、压缩 token 数量、分阶段训练、推理时优化。结果就是单张显卡就能跑，不需要大集群。目前放出的 demo 主要是固定机位让场景自己动，但论文里说支持精确的六自由度镜头轨迹控制。

这条我会先打个折。26 亿参数在视频生成里算小的，1 分钟 720p 是实用门槛，但画面质量、复杂场景、快速运动这些还没看到实测。不过单卡能跑这个定位很明确：不是跟 Sora 比画质，是给需要可控镜头的工作流一个轻量选项。

三个研究员用 Mythos 六天攻破苹果 M5 芯片安全防护

苹果在 M5 和 A19 芯片上花了五年做的 MIE 内存完整性保护，被三个研究员用 Anthropic 的 Mythos 工具攻破了。他们 4 月 25 日 发现漏洞，5 月 1 日 就写完利用程序，全程只用了六天。

攻击手法是纯数据攻击，不碰指针，靠普通用户权限的标准系统调用就能拿到 root 权限。团队已经当面把报告交给了苹果。完整技术细节要等苹果发补丁后才公开。

这条先别急着下结论。六天攻破五年防护听起来很炸，但 Mythos 是 Anthropic 专门做安全测试的工具，研究员本身也是顶尖团队。这更像安全工具在高手手里的威力展示，不是“苹果安全不行”。等补丁和技术细节出来再看漏洞的实际严重程度。

Figure 机器人在仓库连续跑了四天

Figure 的 F.03 人形机器人在真实仓库里 24 小时不间断干活，抓取、搬运、分拣，已经连续跑了四天。测试目的是看它能撑多久、出什么故障、怎么恢复。

之前人形机器人大多是演示单次动作，这次是测持续工作能力，离实用更近一步。缺少具体故障次数和维护间隔，所以这点先别太激动。但能连续跑四天本身是个信号——人形机器人从“能动”往“能干”迈了一步。

杭州给机器人建了个国家级“职业技能训练场”

5 月 16 日，国家人工智能应用中试基地（具身智能）在杭州挂牌启用，相当于给机器人建了一个国家级“职业技能训练场”。基地既展示已经落地的商业场景，也演示数据采集和技能训练过程，目的是帮机器人技术从实验室往真实应用走。

杭州还从 5 月 1 日 起施行了全国首部具身智能机器人地方性法规，要求建设中试和检测平台，并推动机器人在应急救援、医疗康养等领域落地。目前杭州已有 700 多家 机器人相关企业，2025 年产业集群产值 1068 亿元。

这条缺的是基地具体训练能力、开放时间或企业入驻细节。政策信号很明确，但落地节奏还看不到。

今日小信号

Codex 现在能管多台电脑：在 ChatGPT 里切项目就能换设备，还支持远程 SSH 设虚拟机。但延迟和权限隔离细节没提，实际稳不稳先打个折。
MagicPath 直接跑进 Codex：拖拽 UI 就能实时改代码，不用 Figma 和 IDE 两头切。演示没提复杂交互和状态管理能覆盖多少，先当原型加速器看。
Notion 上线开发者平台：核心是 CLI 终端工具、Workers 计算服务和数据库同步，让开发者在 Notion 里跑代码、连外部数据。但定价和开放时间都没说。
Zerostack 1.0.0 发布：纯 Rust 写的编程代理，二进制仅 8.9MB，干活内存约 12MB，比 JS 同类轻 25 倍。轻量是真优势，但生态和成熟度未知。
Anthropic 发了份打脸手册：《Founder's Playbook》说 AI 工具反而会让创业失败率变高，因为快速原型容易让创始人把“能跑通”当成“市场需要”。