ax@ax-radar:~/daily/2026-05-31 $ cat newsletter/daily/2026-05-31.md
41 srcsignal 72%cycle 04:32
AX 的 AI 日报 · 2026-05-31物理 AI 刷存在感

今天 AI 圈在拼硬件,不是模型

今天 AI 圈最有意思的不在某个模型又能写代码了,是几家公司同时把脚踩进了物理世界:OpenAI 正式组队做机器人、英伟达发了台专门跑智能体的 PC、苹果要把 Gemini 蒸馏后塞进 iPhone。另一边,MiniMax 把编程、超长上下文和看图看视频三个能力塞进一个开源模型 M3,编程分摸到了 GPT-5.5 的边。先来看 OpenAI 这一脚。

OpenAI 组机器人团队,但离真机还隔着一次招聘

OpenAI 发推宣布正式组建机器人团队,由 Aditya Ramesh 带队,目前开放全栈硬件、系统和 ML 工程师岗位。Sam Altman 的说法是短期先帮技术工人干活,远期想给每个人配一台个人机器人。

但推文没写招聘规模、预算、产品形态或时间表。这更像是一个组队信号——"我们要做机器人了,先招人"——离实际产品还有距离。Aditya Ramesh 之前负责世界模拟研究,现在整个方向转成了机器人研究,强调软硬件协同设计。这个思路本身不新,但 OpenAI 的品牌效应会让人才市场热闹一阵。

我会先打个折:这跟当年苹果说要做车、特斯拉说要做机器人一样,组队和出产品之间隔着无数次延期。目前能确认的只有"他们开始招人了",其他全是空白。

MiniMax M3 开源:编程摸到 GPT-5.5 的边,但价格和延迟还没说

MiniMax 把 M3 模型开源了,权重公开可下载。它把三个能力塞进了一个模型:编程水平摸到了 GPT-5.5Gemini 3.1 Pro 的边(SWE-Bench Pro 得分 59.0%),能处理 100 万 token 的超长上下文,还原生支持图片和视频输入。

长上下文不卡顿的关键是他们自研的 MSA 稀疏注意力机制——在 100 万 token 下保持注意力计算效率,不会像传统 Transformer 那样计算量随长度平方增长。这个技术细节值得留意,因为超长上下文模型通常推理成本很高,稀疏注意力是控制成本的核心手段。

但缺的东西也很关键:API 价格、实际推理延迟、模型参数量都没给。开源权重是好事,但跑起来贵不贵、快不快,直接决定它能不能在实际项目里用。目前能确认的是编程分确实高,长上下文机制有技术含量,但成本边界还看不到。

苹果把 Gemini 蒸馏后塞进 iPhone,但技术栈绑在谷歌和英伟达身上

下个月 WWDC 苹果会展示 Siri 和端侧 AI 的升级,核心思路是把谷歌 Gemini 模型"蒸馏"成一个小号版本,直接在 iPhone 芯片上本地跑,主打隐私和省 token 费。

但整个技术栈对外依赖很重:本地模型源自 Gemini 蒸馏,手机处理不了的复杂请求会路由到谷歌云,还用了英伟达的机密计算。苹果之前承诺的 Private Cloud Compute 方案原计划用苹果自研芯片,因无法承载完整 Gemini 模型,现已部分转向谷歌云——但名字还叫 Private Cloud Compute。

这就有点尴尬了。苹果一直在讲隐私和自研的故事,但这次端侧 AI 的核心技术栈从模型到云端都绑在谷歌和英伟达身上。不是说这样不好用,而是"自研"这个叙事打了折。对用户来说,隐私和成本账面上确实好看,但背后的技术主权问题值得留意。

英伟达发了台专门跑 AI 智能体的 PC,128GB 统一内存是亮点

英伟达在 Computex 上发了台叫 RTX Spark 的 Windows 电脑,专门在本地跑 AI 智能体。配置给得挺足:1 petaflops AI 算力、128GB 统一内存,意思是大模型不用来回倒腾显存,CPU 和 GPU 共享同一块内存池。

安全方面,他们和微软合作搞了个 OpenShell 运行时,用 Windows 新的安全接口把智能体锁在设备本地跑,数据不出机。性能数据也有:跑 Qwen 3.5 智能体任务时,比上一代快 1.8 倍

但正文没提价格和上市时间。128GB 统一内存这个配置在 PC 里很少见,通常只有工作站或服务器才有,成本不会低。如果价格能压到高端笔记本的水平,对需要在本地跑大模型和智能体的开发者会很有吸引力。目前只能确认配置确实强,但能不能买得起、什么时候能买到还不清楚。

英伟达 Cosmos 3:能看图、推理、生成 3D 世界并直接输出动作

英伟达把 Cosmos 3 称为第一个完全开放的物理 AI 全能模型,意思是它不只能识别图像,还内置了视觉推理、生成 3D 世界状态和直接输出动作的能力。这次放出两个尺寸:Super320 亿参数,Nano80 亿参数。

这个定位很有意思——它不是在跟语言模型抢文本生成的地盘,而是直接瞄准物理世界:机器人、自动驾驶、工业仿真。能看图、推理空间关系、生成 3D 状态、输出动作,这四个能力串在一起,理论上能让机器人或自动驾驶系统在模拟环境里"边看边想边动"。

但缺的东西也很关键:训练数据规模、具体跑分、推理成本都没给。320 亿参数不算小,跑起来贵不贵、实际效果怎么样,还得等实测。目前更像一个框架发布,效果验证还缺数据。

机器人踢点球、自动驾驶横穿加拿大:物理 AI 在刷存在感

今天还有两条物理 AI 的新闻值得放一起看。

MWC 上海宣布在 2026 年 6 月 24 日至 25 日搞一场人形机器人点球比赛,8 支国内具身智能团队参加,包括宇树科技灵心巧手等。规则参照世界杯点球,双方各罚 5 轮,射门和守门的都是机器人。关键限制是机器人必须自己识别球和守门员位置、决定射门角度并控制发力,不能由人遥控,也不能跑预设脚本。

另一条是特斯拉 FSD V14.3.3 完成了全球首次全程零人工干预、横穿加拿大的自动驾驶行程。从温哥华到哈利法克斯,历时 4 天 21 小时,行驶 3760 英里(6051 公里),全程所有驾驶操作均由系统自主完成,无任何系统退出或人工修正。

这两条放在一起看,物理 AI 正在从"能走两步"进化到"能完成一个完整任务"。机器人踢点球考验的是实时感知、决策和动作控制的闭环,自动驾驶横穿加拿大考验的是长时间、多场景下的稳定性。但机器人点球比赛缺少任何技术指标或过往测试视频,特斯拉那条也没有第三方验证——先别太激动,但方向确实在往前走。

今日小信号

  • NVIDIA 开源 DSX OS:一套给 AI 工厂用的软件栈,覆盖能源、芯片、基础设施、模型和应用五层。核心卖点是固定电力下 GPU 数量最多能提 40%,对电费大头玩家可以算算账。但缺少版本号、定价和部署门槛,开源到什么程度还不清楚。
  • AI 做空情绪地图:风投 Tomasz Tunguz 统计发现,AI 云和 neocloud(GPU 算力租赁公司)的中位做空比例最高,达 16.8%,远高于 SaaS 的 9.5%。做空比例最高的个股是 SoundHound AI 36.3%C3.ai 32.2%。市场对 AI 的怀疑集中在算力租赁这块,不是全面看空。
  • 200 英镑数据中心 GPU 改装游戏 PC:作者花 200 英镑(约 1800 元)买块 Tesla V100 SXM2(16GB HBM2 显存,带宽 900GB/s,比 RTX 4080 高 22%),加 50 英镑转接卡塞进游戏电脑,和原有 4080 凑 32GB 显存跑 27B 模型,速度 32 tokens/s。代价是原装风扇噪音 82 分贝(像割草机),作者自己改线接主板 PWM 才解决。显存成本确实低得离谱。
  • NVIDIA Vera CPU:88 个自研核心,配 1.2 TB/s LPDDR5X 内存带宽,专门给 AI 智能体提速。核心逻辑是智能体每干一步——编译代码、跑 Python 脚本、查数据库——都得靠 CPU 执行,步骤越多 CPU 越成瓶颈。
  • OpenAI Rosalind 生物防御工具:Sam Altman 发了条推文说"想帮世界在生物防御上抢占先机",但没功能、没模型、没访问方式、没上线时间。目前就是个预告,信息缺口大到没法评价。

更多

频道

后台