AX 的 AI 日报 · 2026-04-23Agent进流程

模型在降价，Agent 在接手

2026年4月23日

今天 AI 圈像是同时翻了三本账：OpenAI 把 GPT-5.5 推进 ChatGPT 和 Codex，继续往“能干完活”的方向讲；DeepSeek V4 用一百万上下文和低价 API 把牌桌重新压低；Anthropic 则一边承认 Claude Code 被产品改动坑了，一边把 agent 记忆做成更朴素的文件系统。模型发布还在继续，但真正热闹的地方，已经挪到流程、价格和组织账本上。

GPT-5.5 上线了，但 OpenAI 更想让你看 Codex

这两天最像“正餐”的发布，还是 OpenAI 的 GPT-5.5。不过有意思的地方不在名字后面多了 0.1，而是它被放进了 ChatGPT 和 Codex，并且被反复描述成面向“真实工作”和 agents 的模型。

公开信息里，GPT-5.5 已经面向 Plus、Pro、Business、Enterprise 用户分批上线。上游给到的两个数字是：Terminal-Bench 2.0 82.7%，SWE-Bench Pro 58.6%。同时还有一句很关键的话：在真实服务里，它的单 token 延迟与 GPT-5.4 持平。也就是说，OpenAI 想讲的不是“我更聪明但更慢”，而是“我更能干活，但你不用重新适应速度”。

当然，最该盯的几个东西还没落地。API 只写了 “very soon”，定价、上下文窗口、参数规模都没披露。对开发者来说，这些不是脚注，是能不能上生产的门槛。模型再会跑，账单跑得更快也不行。

真正露出 OpenAI 意图的是 Codex 那边。它已经支持 GPT-5.5，还新增了五项代理能力：可以操控浏览器和电脑，可以在 Microsoft Office 与 Google Drive 里生成文档，还接入了 gpt-image-2。更敏感的是，自动审查模式会在高风险操作时调用独立审查智能体。

这基本是在把 Codex 从“写代码工具”往“连续任务执行器”上推。去年大家还在比谁补全更顺，现在开始比谁能拿着浏览器、文件、办公软件一路干到交付。这里的风险也更具体：它不是生成一段错代码，而是可能在真实环境里做一串错动作。

所以 GPT-5.5 这次更像一个入口升级。模型能力当然重要，但 OpenAI 今天最想卖的，其实是“让模型进入任务链”的位置。

这不是新模型发布会，是工位交接。

DeepSeek V4 把一百万上下文卖得很直白

如果说 OpenAI 这边讲的是“更会干活”，DeepSeek V4 这边讲得就朴素多了：我给你长上下文、工具调用、结构化输出，还把价格写出来。

DeepSeek V4 提供 Flash 和 Pro 两个型号，全系支持 100 万上下文，并支持 JSON 输出、工具调用、对话前缀续写、FIM 补全。价格也很直接：Flash 每百万输入 ¥0.2、输出 ¥1；Pro 每百万输入 ¥1、输出 ¥12。在 100 万上下文 场景下，输出价格翻倍。

这类发布最容易被写成“又一个旗舰模型来了”，但这里更有价值的不是旗舰两个字，而是组合拳。长上下文、工具调用、FIM、JSON，这些单独看都不新鲜，放到一个低价 API 里，就会改变很多小团队的默认选项。

以前很多产品做 agent，真正卡住的不是“有没有一个全宇宙最强模型”，而是每轮上下文塞不进去、结构化输出不稳、调用成本一高就不敢让它多跑几步。DeepSeek 这次像是在说：先别谈玄学能力，把 agent 工程里最常见的几个缺口补齐。

当然，能力还要等真实场景验证。另有上游把它描述成“新旗舰预览版”“最强开源平台”，但参数、完整基准、发布时间表都没给。现在能确定的，是 V4 的功能面和价格足够有压迫感。

这事儿会让很多模型选型重新算一遍。不是每个任务都值得请最贵的模型出场，尤其当便宜模型开始把工具链补齐之后。

价格表有时候比排行榜更会说话。

Claude Code 不是突然变笨，是被三次改动绊了一跤

最近 Claude Code 用户最真实的感受可能是：怎么昨天还挺聪明，今天像换了个实习生。现在 Anthropic 给了一个比较少见的复盘——不是模型主体崩了，而是三次系统改动叠在一起，把体验拉下去了。

这次影响到 Sonnet 4.6、Opus 4.6、Opus 4.7，但 API 未受影响。问题已经在 4 月 20 日 随 v2.1.116 修复。三个原因说得挺具体：3 月 4 日，默认 reasoning effort 从 high 降到 medium；3 月 26 日，空闲超过 1 小时 后，系统会错误地在每轮清理历史 thinking；4 月 16 日，新增的“减少冗长”系统提示伤到了编码质量。

这三个点放在一起，很像一次产品层面的“省一点、清一点、短一点”，最后省出了用户口中的“变笨了”。

尤其值得看的是，内部 eval 一开始没有复现问题。这句话比 bug 本身更有意思。现在很多 AI 产品的体验，不是只由底层模型决定，而是由系统提示、缓存策略、推理预算、上下文管理共同拼出来。任何一个环节微调，都可能让用户觉得“模型换了”。

这也给整个行业提了个醒：模型能力不是一个静态指标，产品包装层会把它放大，也会把它削掉。Claude Code 这次的复盘好处在于足够具体，坏处也在于太具体——大家现在知道了，原来只要几个看似合理的产品决策，就能把一个编码助手做出明显落差。

说到底，agent 产品的质量控制比聊天机器人麻烦得多。聊天答错一句，用户翻白眼；代码干错一轮，用户要回滚半天。

这次不是模型塌房，是脚手架松了。

Anthropic 把长期记忆做成文件夹，听起来土，可能更能活

另一个 Anthropic 的动作没那么炸，但很实用：Claude Managed Agents 的记忆功能进入公测，agent 可以在多次会话之间保留并复用经验。

更有意思的是实现方式。它没有先讲一个很漂亮的“长期记忆大脑”，而是把记忆以文件形式存进文件系统，支持共享权限、并发访问、审计日志和历史回滚。这个路线听起来不酷，甚至有点老派，但对生产环境很友好。

因为企业真的要用 agent，不只关心它记不记得，更关心它记了什么、谁能看、谁改过、能不能回滚。向量库当然性感，但文件系统那套权限和审计，才是很多团队已经会管理的东西。

上游给了两个客户信号：Rakuten 称首次出错率下降 97%，Wisedocs 称文档验证提速 30%。这些数字还需要看具体场景，但方向很明确：记忆不是为了让 agent 更像人，而是为了让它少重复犯错。

这点跟过去一年 agent demo 的问题正好对上。很多 demo 第一次看很惊艳，第二次看就露馅：它不知道自己上次试过什么，不知道哪条路径踩过坑，也没有稳定的状态管理。Anthropic 现在把这件事做成文件系统，像是在承认一件事：agent 要进生产，不能只靠“这次回答很聪明”。

聪明是一轮一轮的，记忆才是流程的一部分。

这一步不花哨，但很像真的要干活。

Office 里的 Copilot 终于开始碰画布了

Microsoft 这周把 Copilot Agent Mode 放进了 Word、Excel、PowerPoint。这件事如果只看标题，像又一次 Office AI 功能更新；但从产品位置看，它比“帮我总结文档”要往前走了一步。

微软高管 Sumit Chauhan 的说法是，早期基础模型能力不足，Copilot 只能被动回答问题。现在 Agent Mode 的方向，是让 Copilot 从问答助手变成能直接操作文档画布的代理。

这个变化很关键。Office 里的 AI 最初像一个站在旁边的同事，你问一句，它答一句；Agent Mode 想变成那个能上手改表格、写 slides、调整文档结构的人。问题是，上游没披露开放范围、定价，也没给完整动作清单。所以现在还不能判断它到底能动到什么程度。

但微软的优势也很清楚：它不需要发明一个新的工作入口。Word、Excel、PowerPoint 本来就在企业流程里，Copilot 只要能多接几步，就可能直接碰到预算、汇报、财务模型这些高频场景。

同一条线上，Anthropic 也给 Claude 新增了多款个人应用连接器，覆盖 Spotify、Uber、AllTrails、Instacart、TurboTax 等服务。连接后，Claude 可以在对话里直接建议调用相关应用，比如用 AllTrails 给徒步推荐。这里同样缺首批总数、地区、订阅门槛，但方向也很直：把消费服务接进对话流。

一个进办公室，一个进生活流。模型公司现在都在抢“下一步动作”的位置，而不是只抢“下一句回答”的位置。

入口不响，权限很贵。

Qwen3.6-27B 给大参数叙事拆了一块砖

今天开源模型里最值得看的，是 Qwen3.6-27B。它的故事不是“参数更多了”，反而是“参数少了，但某些任务更强”。

Qwen 团队开源了 Qwen3.6-27B，称它在 4 个智能体编程基准 上超过 Qwen3.5-397B。参数量只有后者大约 1/15。具体数字里，SkillsBench 从 30.0 升到 48.2，GPQA Diamond 为 87.8，AIME26 为 94.1。模型采用纯 Dense 架构，并引入 Thinking Preservation 和 Gated DeltaNet，权重已经上架 Hugging Face 与 ModelScope。

这条最有意思的地方，是它像一次来自内部的参数规模反驳。过去两年，行业很容易把“更大”默认等同于“更强”。但到了 agentic coding、推理保持、训练配方这些更细的方向，模型大小就不再是唯一主角。

当然，基准超过自家前代，不等于在所有真实任务里都能压过大模型。尤其智能体编程很吃工具链、执行环境、提示策略和评测设计。一个 27B Dense 模型在榜上表现漂亮，还需要看社区复现和实际部署成本。

但它给开源生态递了一个很清楚的信号：如果训练和架构做得更精，较小模型仍然能在一些高价值任务上逼近甚至超过更大前代。对企业来说，这比“又一个超大模型”更实在，因为部署、延迟、私有化成本都会跟着变。

大模型的故事还没结束，只是“越大越好”这句越来越不好用了。

钱还在涌进来，只是账本越来越硬

今天还有一组数字，放在一起看有点冷：有人用天价估值融资，有人把员工表直接砍掉。AI 的钱没有少，但它越来越像一张需要重新分配的账本。

Project Prometheus 完成 100 亿美元 融资，投后估值约 380 亿美元，由 Jeff Bezos 和前 Google 高管 Vik Bajaj 参与主导。上游没披露投资方、产品方向和交割时间，但“physical AI”能在这个阶段拿到这样的定价，已经说明市场愿意为“机器人 + 算力 + 供应链”的大故事提前付款。

另一边，AI 编程公司 Cognition 正在洽谈新一轮融资，目标估值 250 亿美元，较上一轮翻倍以上。这里同样缺 ARR、留存、融资规模、完成时间。所以这条不能只按“AI 编程需求旺盛”来理解，更该看的是资本给 AI 编程公司的定价速度。

DeepSeek 也在另一个方向上融资。它正以 200 亿美元 估值寻求首次融资，原因之一是减少竞争对手挖走研究人员。这个理由很真实，但也有点尴尬：顶级研究员要的可能不只是纸面估值，还包括算力、自由度、长期激励和二级流动性。

再看 Meta，画风就不一样了。它计划裁减 10% 员工，约 8000 人，并冻结 6000 个现有空缺岗位。彭博看到的内部备忘录称，裁员将于 5 月 20 日 启动；Meta 对置评请求未回应。上游给出的线索是，裁员用于压低成本，并对冲 AI 等方向的持续投入。

这几条拼在一起，AI 资金流向就很清楚了：资本继续给新故事高估值，大公司继续把工资单往算力和 AI 项目里挪。热钱没有退潮，只是变得更挑食。

以前是“all in AI”，现在更像“从谁身上挪钱 all in AI”。

模型选型和 PM 岗位，都变成调度题了

最后放两个不那么像新闻、但很有行业体感的小信号。

一个是关于模型选型。有篇文章比较 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro、DeepSeek V4 在任务派发里的差异，还说会整理两个真实踩坑场景。它没有给完整价格、评测指标和决策矩阵，所以不能当正式基准报告看。但这类文章本身的出现很说明问题：团队现在不再问“哪个模型最强”，而是在问“这类任务该派给谁”。

这也是今天几条主线的交汇点。GPT-5.5 强调 agentic coding 和工具使用，DeepSeek V4 用价格和长上下文打工程成本，Claude Code 的事故提醒大家产品层会影响体验，Qwen3.6-27B 又告诉你小模型也可能在特定任务里很能打。选型不再是榜单崇拜，而是调度策略。

另一个是 Claude Code 产品负责人 Cat Wu 的访谈被拿来讨论 Product Manager 在 AI 时代的职业路径。文章核心判断是：当工程执行成本下降后，PM 的重心会转向目标定义、学习回路设计和反馈提速。上游没有披露具体案例、数据或 Claude Code 的产品指标，但这个判断挺贴近现实。

AI 不会让 PM 这个角色一夜消失，但会先压缩“只会传话和排期”的中位数岗位。过去 PM 的一部分价值，是把需求拆给工程团队、跟进执行、推动交付；如果执行成本下降，这部分价值就会缩水。留下来的那部分，反而更难：定义什么值得做、怎么验证、怎么让团队更快从用户反馈里学习。

模型也是这样。以前大家想找一个“最强大脑”，现在更像在搭一套任务分发系统。谁便宜、谁稳、谁会用工具、谁适合长上下文、谁适合写代码、谁适合进 Office，都是调度问题。

AI 行业今天最像成熟的地方，可能不是模型名字越来越大，而是大家终于开始认真算这些小账。