AX 的 AI 日报 · 2026-06-07Agent 进真实场景

今天 AI 圈在拼应用，不是模型

2026年6月7日

今天 AI 圈最值得看的不是某个新模型跑分又高了，是几件事同时指向同一个方向：从聊天框里出来，进到真实流程里去。OpenAI 说“聊天已死”，要把 ChatGPT 改成能直接干活的 Agent 平台；北海道一个农民用 Codex 做了 8 个工具，把自动化成本打下来了；苹果内部开完秘密会议，终于把 AI 列为核心战略。先来看 OpenAI 这一刀。

OpenAI 说“聊天已死”，ChatGPT 要变成能帮你订酒店写代码的 Agent 平台

OpenAI 准备给 ChatGPT 做上线以来最大的一次改版，方向很明确：从聊天机器人转成一个能直接干活的 Agent 平台。高管直接放话“聊天已死”，这话说得挺重，但背后的逻辑不复杂——纯对话模式赚不到钱，得让模型帮你做事才能把免费用户转化成付费用户。

具体来说，改版后的 ChatGPT 会整合自家的编程工具 Codex、图像生成，还会接入 Canva、Booking 这类第三方应用。目标是把 ChatGPT 做成跨平台的个人 AI 助手，以后甚至不用你手动输入提示词，它能根据上下文自己判断该干什么。改版预计几周内在网页和手机端上线。

商业压力是明牌。ChatGPT 现在有 9 亿周活用户、5000 万付费用户、月收入 20 亿美元，但还没盈利。企业客户贡献了约 40% 的收入，目标年底拉到 50%。Codex 桌面版周活已经超过 500 万。竞争对手 Anthropic 估值冲到 9650 亿美元，OpenAI 刚完成 1220 亿美元融资，估值 8520 亿美元，IPO 目标估值更高。

但这条我会先打个折。正文没提它怎么解决 Agent 执行任务时容易出错和卡住的老问题。让 AI 帮你订酒店听起来很美，但如果它订错了日期或者卡在支付页面，谁来兜底？从聊天框到 Agent 平台，技术难度不在界面，在可靠性。这点先别太激动，等改版上线跑几周再看。

北海道农民雇了个叫 Codex 的工程师，用 AI 干了 8 件农活

这条挺有意思。日本北海道农民富安弘毅把 ChatGPT 和 Codex 当工程师用，做了 8 件事：拍照识别西兰花病害、用卫星 NDVI 数据看作物长势、拿 ESP32 加 LINE 机器人远程开关温室卷帘、给农场群聊写了个管温度和排期的机器人、从聊天记录里自动统计播种数量、研究 RTK-GPS 自动转向原理并算了自建要花多少钱、用 Airtable 搭了农场管理数据库。

他说 AI 让传统昂贵的自动化变得低成本可及，“如同身边有一位超级工程师”。这话不夸张。以前一个农场想搞病害识别、远程控制温室、自动统计播种量，要么雇人写代码，要么买现成方案，都不便宜。现在一个农民用现成的 AI 工具就能自己搭出来。

但缺少准确率、误判率和实际省了多少人工的数据。病害识别错了可能耽误打药，温室卷帘远程控制失灵可能影响作物生长。这些工具的实际效果还缺验证。不过方向是对的——AI 进真实场景，不是靠某个模型跑分高，是靠有人真的用它解决了自己的问题。

苹果终于认真对待 AI 了，但具体做了什么还不知道

彭博爆料，苹果在一次内部秘密会议后正式把 AI 列为核心战略，相关更新预计在 WWDC 2026 上公布。同时另一条消息说苹果内部围绕新 Siri 发生了战略争议，分歧不小。

两条消息合在一起看，画面大概是：苹果内部对 AI 的态度从“慢慢来”变成了“得认真搞了”，但怎么搞、谁来搞、搞到什么程度，内部还没统一。缺少会议时间、参会人、涉及哪些产品线，也没给技术细节。目前只能知道苹果态度变了，但具体做了什么、做到哪一步，信息缺口很大。

苹果发了第三代基础模型 AFM，一共五款，从手机端到云端都有。两款跑在设备上：AFM 3 Core 是 30 亿参数的密集模型，AFM 3 Core Advanced 是 200 亿参数的稀疏模型，每次只激活 10 到 40 亿参数，靠按需从闪存加载专家模块。这个技术思路挺聪明——把大模型塞进手机，不靠压缩参数，靠按需加载。但缺少延迟和耗电数据，实际体验怎么样还不好说。

特朗普政府想搞个 AI 公共财富基金，让公民分享 AI 红利

据 FT 报道，特朗普政府正与 OpenAI 讨论一个公共财富基金方案：AI 公司捐出少量股权，基金把收益通过账户或分红发给美国公民，而不是政府直接运营公司。这和特朗普去年对 Intel 的 90 亿美元直接持股不同。OpenAI 之前提过类似概念，目的是让普通人分享 AI 增长红利。

政治背景是选民担心失业、数据中心成本高、企业控制一切，而 AI 公司需要华盛顿在基建、采购和监管上帮忙。这个方案算是两边各取所需：政府拿到一个“让人民分享 AI 红利”的故事，AI 公司拿到政策支持。

但缺少股权比例、分配机制、立法路径这些关键细节，离落地还远。想法挺新，但细节全无，先别激动。

Harness-1：一个能记住搜索状态的检索子模型，召回率比开源第二名高 11.4 个百分点

UIUC 和 Chroma 发布了一个叫 Harness-1 的检索子智能体，参数量 200 亿，基于 gpt-oss-20b 训练。它被放在一个“有状态搜索框架”里用强化学习训练，简单说就是模型在搜索时能记住上一步干了什么，再决定下一步怎么查，而不是每次都从头瞎找。

在 8 个基准测试上，它的平均整理召回率是 0.730，比目前最好的开源子智能体高出 11.4 个百分点，只落后于 Opus 4.6。模型权重和框架代码都已公开。

这个方向值得留意。检索不是新问题，但让模型在搜索过程中维护状态——记住哪些查过了、哪些值得深挖、什么时候该停——比单纯提高单次检索精度更接近人类做研究的方式。11.4 个百分点的提升不小，但基准测试和实际场景的差距还是要打折扣。

今日小信号

Nvidia 和 SK Hynix 签了多年协议，要从设计阶段就绑在一起搞下一代 AI 内存芯片。但缺少具体产品、量产时间和金额，先当个意向书看。
Nvidia 和 LG 集团签了大单，LG 全线业务——机器人、自动驾驶、GPU 云——都用上英伟达的仿真工具 Isaac Sim/Lab 和车载平台 DRIVE。亮点是 LG 还会用英伟达的 DSX 管数据中心，说明这不仅是卖卡，是卖整套工具链。但缺少合作金额和部署时间表。
Nvidia 和韩国斗山集团也签了，把 Isaac Sim、Cosmos、Jetson Thor 打包进斗山机器人的 Agentic Robot OS，让机器人自己干拆垛、抛光这类活。英伟达这波在韩国签了三家，从芯片到机器人到游戏，铺得很开。
Gary Marcus 引用 FT 数据图指出：AI 让应用、书籍、论文数量暴增，但销量、GDP、科学质量都没跟着涨。他管这叫“垃圾内容泛滥”。核心判断很清楚——产出多不等于价值高。
月之暗面启动新一轮融资，目标估值 300 亿美元，计划拿 2 亿美元左右。这是半年内第三次融资，频率很高，但缺少收入或用户数据，这个估值是业绩撑的还是竞争抬的，先打个折。
阿里 RTPurboV2 把模型里 85% 的注意力头换成滑动窗口，剩下 15% 做长距离检索，适配训练只要 600 步，Prefill 加速最高 9.36 倍。但正文因为验证失败没抓到实验细节和模型规模，这点先别太激动。