AX 的 AI 日报 · 2026-05-14落地渗透

今天 AI 圈在拼落地, 不是模型

2026年5月14日

今天 AI 圈最有意思的不在某个模型又刷榜了, 是几件事同时指向同一个方向: 模型能力开始往实际工作流里渗透。OpenAI 把 Codex 搬进手机、腾讯开源了能省 61% Token 的记忆系统、Kimi 给浏览器装了个插件让 AI 替你操作网页。但另一边, 微软在 OpenAI 身上砸了超 1000 亿美元, 回报才 300 亿, 这笔账远没回本。先来看微软这一笔。

微软砸了 1000 亿, 回报 300 亿, 分成上限还锁死在 380 亿

这条数字太大了, 我得先确认一下 — 微软企业发展负责人在庭审中确认, 公司对 OpenAI 的总投入已超过 1000 亿美元。其中 130 亿是直接给的原始投资, 其余大部分是 Azure 云服务的基建和托管成本, 而且很多钱是在 OpenAI 开始给微软分成之前就花出去的。

作为回报, 到 2025 年为止, 微软通过集成 OpenAI 技术和 OpenAI 自身的云消费, 总共创造了约 300 亿美元的收入。新协议还把分成上限锁死在 380 亿美元, 也就是说, 就算 OpenAI 未来赚再多, 微软能拿回来的钱是有天花板的。

这个结构挺有意思。微软不是单纯的投资人, 它是云厂商 + 独家技术合作伙伴 + 投资人三重身份。但 1000 亿砸下去, 目前只回来 300 亿, 上限还锁在 380 亿, 这笔账怎么看都不像能回本的样子。

当然, 微软要的不只是直接分成。Azure 因为 OpenAI 的 workload 涨了多少、Office 和 GitHub 因为 GPT 集成多卖了多少, 这些间接收益没算在那 300 亿里。但即使把这些都算上, 1000 亿这个数字还是太大了。

这一笔很贵, 但很微软。

OpenAI 把 Codex 搬进手机, 还给它加了钩子和令牌

OpenAI 今天给 Codex 上了三个更新, 方向很明确: 让编程助手从"帮你写代码"变成"替你管流程"。

第一个是移动端。你现在可以在 ChatGPT 手机 App 里连接自己电脑或远程开发机里正在干活的 Codex, 实时查看终端输出、截图、测试结果和代码差异, 随时批准下一步操作、切换模型或给出新指令。它通过一个安全中继层保持设备间同步, 不会把本地文件直接暴露到公网。官方说每周已有超过 400 万人用 Codex, 这次更新等于让你不在电脑前也能盯着它干活。

第二个是钩子。Codex 现在可以在任务的关键节点跑自定义脚本, 比如提交前自动验代码、扫密钥、记日志, 或者按仓库做定制行为。这会让你可以把安全检查、合规要求直接嵌进 AI 的工作流里, 不用事后补救。

第三个是程序化访问令牌。商业和企业版用户可以从 ChatGPT 工作区设置里创建带权限范围的令牌, 支持过期和撤销, 方便接入 CI/CD、发布流水线和内部自动化。使用记录会归到对应工作区, 方便审计。

这三个更新放在一起看, OpenAI 想做的事很清楚: 让 Codex 不只是开发者的工具, 而是开发流程里的一个可编程节点。但正文没提令牌的权限粒度到底多细, 也没说钩子执行失败时怎么回滚, 这些细节决定了它能不能真进生产环境。

GPT-5.5 在 Databricks 的企业文档测试里错误率降了 46%

这条是 OpenAI 官方发的客户案例, 我会先打个折。但数字确实好看。

Databricks 通过自家的 AI Unity Gateway, 把 GPT-5.5 用在了 AgentBricks 和 Agent Supervisor API 搭建的智能体工作流里。在专门考验模型处理扫描件、老旧文件和长文档能力的 OfficeQA Pro 基准上, GPT-5.5 比上一代 GPT-5.4 的错误率降低了 46%, 成了第一个准确率过半的模型。

这个基准有意思的地方在于, 它测的不是模型写代码或做数学题的能力, 而是企业里最常见的脏活: 扫描件 OCR 不准、格式乱、表格嵌在段落里、跨页的长文档。这些场景传统上需要大量人工预处理, 模型能直接啃下来, 省的不是算力, 是人。

但因为是 OpenAI 官方发的案例, 测试条件、样本量、有没有针对性优化都不清楚。Databricks 自己就是 OpenAI 的大客户, 这个"错误率降 46%"是在什么基线上比的、有没有 cherry-pick, 都还看不到。先当方向看, 别当结论用。

腾讯开源 Agent Memory: Token 省 61%, 靠的是"任务地图"和上下文卸载

腾讯云开源了 TencentDB Agent Memory, 专门解决 AI Agent 在长任务里上下文窗口被快速撑爆的问题。核心思路分两步。

第一步是用 Mermaid 流程图把任务执行过程画成一张可折叠、可展开的"任务地图", 让 Agent 随时知道自己在哪、哪些步骤有依赖。这解决了长任务里 Agent 容易"迷路"的问题 — 任务跑到一半忘了前面做了什么、接下来该干什么。

第二步是上下文卸载。工具返回的完整结果存到外部文件, 上下文里只留一行摘要和索引路径。实测在多任务连续会话中, Token 消耗最高降低了 61%, 任务成功率也有提升。项目已适配 OpenClaw 等主流框架, 支持一键集成与本地 SQLite 存储。

这个思路不新鲜, 但开源出来、有实测数据、能一键集成, 对开发者来说很实用。61% 的 Token 节省意味着同样的上下文窗口能跑更长的任务, 或者同样的任务能用更便宜的模型。在 Agent 工作流越来越长的趋势下, 这种"记忆管理"会变成刚需。

Kimi 给浏览器装了个插件, 让 AI 替你操作网页

Kimi 上线了"网页桥接"浏览器扩展, 装在 Chrome 上后, AI 智能体可以直接在网页里搜索、滚动、点击、打字, 像人一样走完一整套网站操作流程。它支持 Kimi Code CLI、Claude Code、Cursor、Codex 和 Hermes 这几个开发工具, 意味着你写代码或跑任务时, AI 能直接去网页上干活, 不用再手动切来切去。

扩展已在 Chrome 应用商店上线。

这个方向大家都在做 — OpenAI 有 Operator, Anthropic 有 Computer Use, 现在 Kimi 也进来了。但 Kimi 的做法更轻: 一个浏览器扩展, 接上现有的开发工具, 不要求你换工作流。

不过正文没提跨站登录、验证码、支付页面这些硬骨头怎么处理。网页自动化的难点从来不是"能不能点按钮", 而是遇到登录墙、人机验证、动态加载内容时怎么处理。先别当万能遥控器, 但方向是对的。

OpenEvidence 覆盖 65% 美国医生, 靠的是医生自己偷偷注册

这条数字来自公司自报, 没第三方验证, 先打个折。但细节很真实。

OpenEvidence 说它已经覆盖了 65% 的美国医生, 4 月临床场景用了 2700 万次, 平均每个医生一个月用 41 次。医生是自己在手机上用执业编号注册的, 医院起初并不知情。Mount Sinai 的 AI 负责人管这叫"影子 AI", 意思是基层医生自己先大规模用起来了, 医院后来才追着签企业合作。

这个模式挺有意思。它不是传统医疗 IT 那种"医院采购 → IT 部署 → 医生被迫用"的路径, 而是反过来: 医生觉得好用, 自己掏手机注册, 医院发现用量大了再补签合同。合作伙伴包括 NEJM、JAMA、NCCN 和 Wiley, 内容上有背书。

65% 这个数字我持保留态度 — 美国有超过 100 万医生, 65% 意味着 65 万+ 的覆盖, 这个量级需要独立验证。但"影子 AI"这个现象本身是真实的, 而且不只医疗行业, 金融、法律、教育都在发生同样的事: 一线从业者自己先用了, 管理层后知后觉。

Anthropic 推演 2028 年中美 AI 竞赛: 核心就赌芯片禁令能不能锁死

Anthropic 出了一份政策分析, 推演了 2028 年全球 AI 领导权的两种走向。核心就一个变量: 美国及其盟友能不能守住算力芯片这个优势。

现在美国靠出口管制卡住了中国获取最先进训练芯片的渠道, 但中国实验室靠人才、钻管制漏洞和大规模"蒸馏攻击" — 直接看，就是扒美国模型的能力来训练自己的模型 — 追得很紧。

第一种情景是乐观的: 如果政策继续收紧漏洞、打断蒸馏攻击、盟友配合执行, 美国能在 2028 年保持 1-2 年的领先。第二种是悲观的: 如果管制有漏洞、蒸馏技术继续进步、中国在算法效率上突破, 差距可能在 2028 年前被抹平。

Anthropic 自己就是美国 AI 公司, 这份分析有立场, 不是中立的学术研究。但它的核心判断是对的: 这场竞赛的关键已经不是模型架构或算法创新, 而是算力供应链的控制权。芯片禁令能不能执行到位, 比谁的模型多刷了几个点更重要。

今日小信号

Anthropic 的 Mythos AI 五天挖出两个 macOS 内核零日漏洞, 还串成一条提权攻击链, 绕过了苹果的内存完整性保护。但缺少漏洞是否已报给苹果、测试环境是否受限, 先别太激动。
盖洛普民调: 超七成美国人反对家门口建数据中心, 反对率半年从 47% 飙到 70%, 批发电价被推高 267%, 69 个地方直接暂停审批。AI 基建的民怨账本比想象中厚。
小米 MiMo V2.5 Pro 在 DesignArena 设计榜冲到第三, 前端编码追平 Claude Sonnet 4.6, 但缺少评分和样本量, 先打个折。
商汤李沐团队开源 SenseNova U1 模型权重, 基于 MoE 架构, 但缺少参数量、跑分和开源协议, 实际能用在哪还不好说。
IBM 发了两个开源多语言嵌入模型, 小号 9700 万参数在 MTEB 同尺寸里检索分最高, 但缺少跟更大模型的横向对比。