AX 的 AI 日报 · 2026-05-31物理 AI 刷存在感

今天 AI 圈在拼硬件，不是模型

2026年5月31日

今天 AI 圈最有意思的不在某个模型又能写代码了，是几家公司同时把脚踩进了物理世界：OpenAI 正式组队做机器人、英伟达发了台专门跑智能体的 PC、苹果要把 Gemini 蒸馏后塞进 iPhone。另一边，MiniMax 把编程、超长上下文和看图看视频三个能力塞进一个开源模型 M3，编程分摸到了 GPT-5.5 的边。先来看 OpenAI 这一脚。

OpenAI 组机器人团队，但离真机还隔着一次招聘

OpenAI 发推宣布正式组建机器人团队，由 Aditya Ramesh 带队，目前开放全栈硬件、系统和 ML 工程师岗位。Sam Altman 的说法是短期先帮技术工人干活，远期想给每个人配一台个人机器人。

但推文没写招聘规模、预算、产品形态或时间表。这更像是一个组队信号——"我们要做机器人了，先招人"——离实际产品还有距离。Aditya Ramesh 之前负责世界模拟研究，现在整个方向转成了机器人研究，强调软硬件协同设计。这个思路本身不新，但 OpenAI 的品牌效应会让人才市场热闹一阵。

我会先打个折：这跟当年苹果说要做车、特斯拉说要做机器人一样，组队和出产品之间隔着无数次延期。目前能确认的只有"他们开始招人了"，其他全是空白。

MiniMax M3 开源：编程摸到 GPT-5.5 的边，但价格和延迟还没说

MiniMax 把 M3 模型开源了，权重公开可下载。它把三个能力塞进了一个模型：编程水平摸到了 GPT-5.5 和 Gemini 3.1 Pro 的边（SWE-Bench Pro 得分 59.0%），能处理 100 万 token 的超长上下文，还原生支持图片和视频输入。

长上下文不卡顿的关键是他们自研的 MSA 稀疏注意力机制——在 100 万 token 下保持注意力计算效率，不会像传统 Transformer 那样计算量随长度平方增长。这个技术细节值得留意，因为超长上下文模型通常推理成本很高，稀疏注意力是控制成本的核心手段。

但缺的东西也很关键：API 价格、实际推理延迟、模型参数量都没给。开源权重是好事，但跑起来贵不贵、快不快，直接决定它能不能在实际项目里用。目前能确认的是编程分确实高，长上下文机制有技术含量，但成本边界还看不到。

苹果把 Gemini 蒸馏后塞进 iPhone，但技术栈绑在谷歌和英伟达身上

下个月 WWDC 苹果会展示 Siri 和端侧 AI 的升级，核心思路是把谷歌 Gemini 模型"蒸馏"成一个小号版本，直接在 iPhone 芯片上本地跑，主打隐私和省 token 费。

但整个技术栈对外依赖很重：本地模型源自 Gemini 蒸馏，手机处理不了的复杂请求会路由到谷歌云，还用了英伟达的机密计算。苹果之前承诺的 Private Cloud Compute 方案原计划用苹果自研芯片，因无法承载完整 Gemini 模型，现已部分转向谷歌云——但名字还叫 Private Cloud Compute。

这就有点尴尬了。苹果一直在讲隐私和自研的故事，但这次端侧 AI 的核心技术栈从模型到云端都绑在谷歌和英伟达身上。不是说这样不好用，而是"自研"这个叙事打了折。对用户来说，隐私和成本账面上确实好看，但背后的技术主权问题值得留意。

英伟达发了台专门跑 AI 智能体的 PC，128GB 统一内存是亮点

英伟达在 Computex 上发了台叫 RTX Spark 的 Windows 电脑，专门在本地跑 AI 智能体。配置给得挺足：1 petaflops AI 算力、128GB 统一内存，意思是大模型不用来回倒腾显存，CPU 和 GPU 共享同一块内存池。

安全方面，他们和微软合作搞了个 OpenShell 运行时，用 Windows 新的安全接口把智能体锁在设备本地跑，数据不出机。性能数据也有：跑 Qwen 3.5 智能体任务时，比上一代快 1.8 倍。

但正文没提价格和上市时间。128GB 统一内存这个配置在 PC 里很少见，通常只有工作站或服务器才有，成本不会低。如果价格能压到高端笔记本的水平，对需要在本地跑大模型和智能体的开发者会很有吸引力。目前只能确认配置确实强，但能不能买得起、什么时候能买到还不清楚。

英伟达 Cosmos 3：能看图、推理、生成 3D 世界并直接输出动作

英伟达把 Cosmos 3 称为第一个完全开放的物理 AI 全能模型，意思是它不只能识别图像，还内置了视觉推理、生成 3D 世界状态和直接输出动作的能力。这次放出两个尺寸：Super 版 320 亿参数，Nano 版 80 亿参数。

这个定位很有意思——它不是在跟语言模型抢文本生成的地盘，而是直接瞄准物理世界：机器人、自动驾驶、工业仿真。能看图、推理空间关系、生成 3D 状态、输出动作，这四个能力串在一起，理论上能让机器人或自动驾驶系统在模拟环境里"边看边想边动"。

但缺的东西也很关键：训练数据规模、具体跑分、推理成本都没给。320 亿参数不算小，跑起来贵不贵、实际效果怎么样，还得等实测。目前更像一个框架发布，效果验证还缺数据。

机器人踢点球、自动驾驶横穿加拿大：物理 AI 在刷存在感

今天还有两条物理 AI 的新闻值得放一起看。

MWC 上海宣布在 2026 年 6 月 24 日至 25 日搞一场人形机器人点球比赛，8 支国内具身智能团队参加，包括宇树科技、灵心巧手等。规则参照世界杯点球，双方各罚 5 轮，射门和守门的都是机器人。关键限制是机器人必须自己识别球和守门员位置、决定射门角度并控制发力，不能由人遥控，也不能跑预设脚本。

另一条是特斯拉 FSD V14.3.3 完成了全球首次全程零人工干预、横穿加拿大的自动驾驶行程。从温哥华到哈利法克斯，历时 4 天 21 小时，行驶 3760 英里（6051 公里），全程所有驾驶操作均由系统自主完成，无任何系统退出或人工修正。

这两条放在一起看，物理 AI 正在从"能走两步"进化到"能完成一个完整任务"。机器人踢点球考验的是实时感知、决策和动作控制的闭环，自动驾驶横穿加拿大考验的是长时间、多场景下的稳定性。但机器人点球比赛缺少任何技术指标或过往测试视频，特斯拉那条也没有第三方验证——先别太激动，但方向确实在往前走。

今日小信号

NVIDIA 开源 DSX OS：一套给 AI 工厂用的软件栈，覆盖能源、芯片、基础设施、模型和应用五层。核心卖点是固定电力下 GPU 数量最多能提 40%，对电费大头玩家可以算算账。但缺少版本号、定价和部署门槛，开源到什么程度还不清楚。
AI 做空情绪地图：风投 Tomasz Tunguz 统计发现，AI 云和 neocloud（GPU 算力租赁公司）的中位做空比例最高，达 16.8%，远高于 SaaS 的 9.5%。做空比例最高的个股是 SoundHound AI 36.3%、C3.ai 32.2%。市场对 AI 的怀疑集中在算力租赁这块，不是全面看空。
200 英镑数据中心 GPU 改装游戏 PC：作者花 200 英镑（约 1800 元）买块 Tesla V100 SXM2（16GB HBM2 显存，带宽 900GB/s，比 RTX 4080 高 22%），加 50 英镑转接卡塞进游戏电脑，和原有 4080 凑 32GB 显存跑 27B 模型，速度 32 tokens/s。代价是原装风扇噪音 82 分贝（像割草机），作者自己改线接主板 PWM 才解决。显存成本确实低得离谱。
NVIDIA Vera CPU：88 个自研核心，配 1.2 TB/s LPDDR5X 内存带宽，专门给 AI 智能体提速。核心逻辑是智能体每干一步——编译代码、跑 Python 脚本、查数据库——都得靠 CPU 执行，步骤越多 CPU 越成瓶颈。
OpenAI Rosalind 生物防御工具：Sam Altman 发了条推文说"想帮世界在生物防御上抢占先机"，但没功能、没模型、没访问方式、没上线时间。目前就是个预告，信息缺口大到没法评价。