ax@ax-radar:~/daily/2026-06-07 $ cat newsletter/daily/2026-06-07.md
41 srcsignal 72%cycle 04:32
AX 的 AI 日报 · 2026-06-07Agent 进真实场景

今天 AI 圈在拼应用,不是模型

今天 AI 圈最值得看的不是某个新模型跑分又高了,是几件事同时指向同一个方向:从聊天框里出来,进到真实流程里去。OpenAI 说“聊天已死”,要把 ChatGPT 改成能直接干活的 Agent 平台;北海道一个农民用 Codex 做了 8 个工具,把自动化成本打下来了;苹果内部开完秘密会议,终于把 AI 列为核心战略。先来看 OpenAI 这一刀。

OpenAI 说“聊天已死”,ChatGPT 要变成能帮你订酒店写代码的 Agent 平台

OpenAI 准备给 ChatGPT 做上线以来最大的一次改版,方向很明确:从聊天机器人转成一个能直接干活的 Agent 平台。高管直接放话“聊天已死”,这话说得挺重,但背后的逻辑不复杂——纯对话模式赚不到钱,得让模型帮你做事才能把免费用户转化成付费用户。

具体来说,改版后的 ChatGPT 会整合自家的编程工具 Codex、图像生成,还会接入 CanvaBooking 这类第三方应用。目标是把 ChatGPT 做成跨平台的个人 AI 助手,以后甚至不用你手动输入提示词,它能根据上下文自己判断该干什么。改版预计几周内在网页和手机端上线。

商业压力是明牌。ChatGPT 现在有 9 亿周活用户5000 万付费用户、月收入 20 亿美元,但还没盈利。企业客户贡献了约 40% 的收入,目标年底拉到 50%。Codex 桌面版周活已经超过 500 万。竞争对手 Anthropic 估值冲到 9650 亿美元,OpenAI 刚完成 1220 亿美元融资,估值 8520 亿美元,IPO 目标估值更高。

但这条我会先打个折。正文没提它怎么解决 Agent 执行任务时容易出错和卡住的老问题。让 AI 帮你订酒店听起来很美,但如果它订错了日期或者卡在支付页面,谁来兜底?从聊天框到 Agent 平台,技术难度不在界面,在可靠性。这点先别太激动,等改版上线跑几周再看。

北海道农民雇了个叫 Codex 的工程师,用 AI 干了 8 件农活

这条挺有意思。日本北海道农民富安弘毅ChatGPTCodex 当工程师用,做了 8 件事:拍照识别西兰花病害、用卫星 NDVI 数据看作物长势、拿 ESP32LINE 机器人远程开关温室卷帘、给农场群聊写了个管温度和排期的机器人、从聊天记录里自动统计播种数量、研究 RTK-GPS 自动转向原理并算了自建要花多少钱、用 Airtable 搭了农场管理数据库。

他说 AI 让传统昂贵的自动化变得低成本可及,“如同身边有一位超级工程师”。这话不夸张。以前一个农场想搞病害识别、远程控制温室、自动统计播种量,要么雇人写代码,要么买现成方案,都不便宜。现在一个农民用现成的 AI 工具就能自己搭出来。

但缺少准确率、误判率和实际省了多少人工的数据。病害识别错了可能耽误打药,温室卷帘远程控制失灵可能影响作物生长。这些工具的实际效果还缺验证。不过方向是对的——AI 进真实场景,不是靠某个模型跑分高,是靠有人真的用它解决了自己的问题。

苹果终于认真对待 AI 了,但具体做了什么还不知道

彭博爆料,苹果在一次内部秘密会议后正式把 AI 列为核心战略,相关更新预计在 WWDC 2026 上公布。同时另一条消息说苹果内部围绕新 Siri 发生了战略争议,分歧不小。

两条消息合在一起看,画面大概是:苹果内部对 AI 的态度从“慢慢来”变成了“得认真搞了”,但怎么搞、谁来搞、搞到什么程度,内部还没统一。缺少会议时间、参会人、涉及哪些产品线,也没给技术细节。目前只能知道苹果态度变了,但具体做了什么、做到哪一步,信息缺口很大。

苹果发了第三代基础模型 AFM,一共五款,从手机端到云端都有。两款跑在设备上:AFM 3 Core30 亿参数的密集模型,AFM 3 Core Advanced200 亿参数的稀疏模型,每次只激活 10 到 40 亿参数,靠按需从闪存加载专家模块。这个技术思路挺聪明——把大模型塞进手机,不靠压缩参数,靠按需加载。但缺少延迟和耗电数据,实际体验怎么样还不好说。

特朗普政府想搞个 AI 公共财富基金,让公民分享 AI 红利

据 FT 报道,特朗普政府正与 OpenAI 讨论一个公共财富基金方案:AI 公司捐出少量股权,基金把收益通过账户或分红发给美国公民,而不是政府直接运营公司。这和特朗普去年对 Intel 的 90 亿美元直接持股不同。OpenAI 之前提过类似概念,目的是让普通人分享 AI 增长红利。

政治背景是选民担心失业、数据中心成本高、企业控制一切,而 AI 公司需要华盛顿在基建、采购和监管上帮忙。这个方案算是两边各取所需:政府拿到一个“让人民分享 AI 红利”的故事,AI 公司拿到政策支持。

但缺少股权比例、分配机制、立法路径这些关键细节,离落地还远。想法挺新,但细节全无,先别激动。

Harness-1:一个能记住搜索状态的检索子模型,召回率比开源第二名高 11.4 个百分点

UIUCChroma 发布了一个叫 Harness-1 的检索子智能体,参数量 200 亿,基于 gpt-oss-20b 训练。它被放在一个“有状态搜索框架”里用强化学习训练,简单说就是模型在搜索时能记住上一步干了什么,再决定下一步怎么查,而不是每次都从头瞎找。

8 个基准测试上,它的平均整理召回率是 0.730,比目前最好的开源子智能体高出 11.4 个百分点,只落后于 Opus 4.6。模型权重和框架代码都已公开。

这个方向值得留意。检索不是新问题,但让模型在搜索过程中维护状态——记住哪些查过了、哪些值得深挖、什么时候该停——比单纯提高单次检索精度更接近人类做研究的方式。11.4 个百分点的提升不小,但基准测试和实际场景的差距还是要打折扣。

今日小信号

  • Nvidia 和 SK Hynix 签了多年协议,要从设计阶段就绑在一起搞下一代 AI 内存芯片。但缺少具体产品、量产时间和金额,先当个意向书看。
  • Nvidia 和 LG 集团签了大单,LG 全线业务——机器人、自动驾驶、GPU 云——都用上英伟达的仿真工具 Isaac Sim/Lab 和车载平台 DRIVE。亮点是 LG 还会用英伟达的 DSX 管数据中心,说明这不仅是卖卡,是卖整套工具链。但缺少合作金额和部署时间表。
  • Nvidia 和韩国斗山集团也签了,把 Isaac SimCosmosJetson Thor 打包进斗山机器人的 Agentic Robot OS,让机器人自己干拆垛、抛光这类活。英伟达这波在韩国签了三家,从芯片到机器人到游戏,铺得很开。
  • Gary Marcus 引用 FT 数据图指出:AI 让应用、书籍、论文数量暴增,但销量、GDP、科学质量都没跟着涨。他管这叫“垃圾内容泛滥”。核心判断很清楚——产出多不等于价值高。
  • 月之暗面启动新一轮融资,目标估值 300 亿美元,计划拿 2 亿美元左右。这是半年内第三次融资,频率很高,但缺少收入或用户数据,这个估值是业绩撑的还是竞争抬的,先打个折。
  • 阿里 RTPurboV2 把模型里 85% 的注意力头换成滑动窗口,剩下 15% 做长距离检索,适配训练只要 600 步,Prefill 加速最高 9.36 倍。但正文因为验证失败没抓到实验细节和模型规模,这点先别太激动。

更多

频道

后台