模型在降价,Agent 在接手
今天 AI 圈像是同时翻了三本账:OpenAI 把 GPT-5.5 推进 ChatGPT 和 Codex,继续往“能干完活”的方向讲;DeepSeek V4 用一百万上下文和低价 API 把牌桌重新压低;Anthropic 则一边承认 Claude Code 被产品改动坑了,一边把 agent 记忆做成更朴素的文件系统。模型发布还在继续,但真正热闹的地方,已经挪到流程、价格和组织账本上。
GPT-5.5 上线了,但 OpenAI 更想让你看 Codex
这两天最像“正餐”的发布,还是 OpenAI 的 GPT-5.5。不过有意思的地方不在名字后面多了 0.1,而是它被放进了 ChatGPT 和 Codex,并且被反复描述成面向“真实工作”和 agents 的模型。
公开信息里,GPT-5.5 已经面向 Plus、Pro、Business、Enterprise 用户分批上线。上游给到的两个数字是:Terminal-Bench 2.0 82.7%,SWE-Bench Pro 58.6%。同时还有一句很关键的话:在真实服务里,它的单 token 延迟与 GPT-5.4 持平。也就是说,OpenAI 想讲的不是“我更聪明但更慢”,而是“我更能干活,但你不用重新适应速度”。
当然,最该盯的几个东西还没落地。API 只写了 “very soon”,定价、上下文窗口、参数规模都没披露。对开发者来说,这些不是脚注,是能不能上生产的门槛。模型再会跑,账单跑得更快也不行。
真正露出 OpenAI 意图的是 Codex 那边。它已经支持 GPT-5.5,还新增了五项代理能力:可以操控浏览器和电脑,可以在 Microsoft Office 与 Google Drive 里生成文档,还接入了 gpt-image-2。更敏感的是,自动审查模式会在高风险操作时调用独立审查智能体。
这基本是在把 Codex 从“写代码工具”往“连续任务执行器”上推。去年大家还在比谁补全更顺,现在开始比谁能拿着浏览器、文件、办公软件一路干到交付。这里的风险也更具体:它不是生成一段错代码,而是可能在真实环境里做一串错动作。
所以 GPT-5.5 这次更像一个入口升级。模型能力当然重要,但 OpenAI 今天最想卖的,其实是“让模型进入任务链”的位置。
这不是新模型发布会,是工位交接。
DeepSeek V4 把一百万上下文卖得很直白
如果说 OpenAI 这边讲的是“更会干活”,DeepSeek V4 这边讲得就朴素多了:我给你长上下文、工具调用、结构化输出,还把价格写出来。
DeepSeek V4 提供 Flash 和 Pro 两个型号,全系支持 100 万上下文,并支持 JSON 输出、工具调用、对话前缀续写、FIM 补全。价格也很直接:Flash 每百万输入 ¥0.2、输出 ¥1;Pro 每百万输入 ¥1、输出 ¥12。在 100 万上下文 场景下,输出价格翻倍。
这类发布最容易被写成“又一个旗舰模型来了”,但这里更有价值的不是旗舰两个字,而是组合拳。长上下文、工具调用、FIM、JSON,这些单独看都不新鲜,放到一个低价 API 里,就会改变很多小团队的默认选项。
以前很多产品做 agent,真正卡住的不是“有没有一个全宇宙最强模型”,而是每轮上下文塞不进去、结构化输出不稳、调用成本一高就不敢让它多跑几步。DeepSeek 这次像是在说:先别谈玄学能力,把 agent 工程里最常见的几个缺口补齐。
当然,能力还要等真实场景验证。另有上游把它描述成“新旗舰预览版”“最强开源平台”,但参数、完整基准、发布时间表都没给。现在能确定的,是 V4 的功能面和价格足够有压迫感。
这事儿会让很多模型选型重新算一遍。不是每个任务都值得请最贵的模型出场,尤其当便宜模型开始把工具链补齐之后。
价格表有时候比排行榜更会说话。
Claude Code 不是突然变笨,是被三次改动绊了一跤
最近 Claude Code 用户最真实的感受可能是:怎么昨天还挺聪明,今天像换了个实习生。现在 Anthropic 给了一个比较少见的复盘——不是模型主体崩了,而是三次系统改动叠在一起,把体验拉下去了。
这次影响到 Sonnet 4.6、Opus 4.6、Opus 4.7,但 API 未受影响。问题已经在 4 月 20 日 随 v2.1.116 修复。三个原因说得挺具体:3 月 4 日,默认 reasoning effort 从 high 降到 medium;3 月 26 日,空闲超过 1 小时 后,系统会错误地在每轮清理历史 thinking;4 月 16 日,新增的“减少冗长”系统提示伤到了编码质量。
这三个点放在一起,很像一次产品层面的“省一点、清一点、短一点”,最后省出了用户口中的“变笨了”。
尤其值得看的是,内部 eval 一开始没有复现问题。这句话比 bug 本身更有意思。现在很多 AI 产品的体验,不是只由底层模型决定,而是由系统提示、缓存策略、推理预算、上下文管理共同拼出来。任何一个环节微调,都可能让用户觉得“模型换了”。
这也给整个行业提了个醒:模型能力不是一个静态指标,产品包装层会把它放大,也会把它削掉。Claude Code 这次的复盘好处在于足够具体,坏处也在于太具体——大家现在知道了,原来只要几个看似合理的产品决策,就能把一个编码助手做出明显落差。
说到底,agent 产品的质量控制比聊天机器人麻烦得多。聊天答错一句,用户翻白眼;代码干错一轮,用户要回滚半天。
这次不是模型塌房,是脚手架松了。
Anthropic 把长期记忆做成文件夹,听起来土,可能更能活
另一个 Anthropic 的动作没那么炸,但很实用:Claude Managed Agents 的记忆功能进入公测,agent 可以在多次会话之间保留并复用经验。
更有意思的是实现方式。它没有先讲一个很漂亮的“长期记忆大脑”,而是把记忆以文件形式存进文件系统,支持共享权限、并发访问、审计日志和历史回滚。这个路线听起来不酷,甚至有点老派,但对生产环境很友好。
因为企业真的要用 agent,不只关心它记不记得,更关心它记了什么、谁能看、谁改过、能不能回滚。向量库当然性感,但文件系统那套权限和审计,才是很多团队已经会管理的东西。
上游给了两个客户信号:Rakuten 称首次出错率下降 97%,Wisedocs 称文档验证提速 30%。这些数字还需要看具体场景,但方向很明确:记忆不是为了让 agent 更像人,而是为了让它少重复犯错。
这点跟过去一年 agent demo 的问题正好对上。很多 demo 第一次看很惊艳,第二次看就露馅:它不知道自己上次试过什么,不知道哪条路径踩过坑,也没有稳定的状态管理。Anthropic 现在把这件事做成文件系统,像是在承认一件事:agent 要进生产,不能只靠“这次回答很聪明”。
聪明是一轮一轮的,记忆才是流程的一部分。
这一步不花哨,但很像真的要干活。
Office 里的 Copilot 终于开始碰画布了
Microsoft 这周把 Copilot Agent Mode 放进了 Word、Excel、PowerPoint。这件事如果只看标题,像又一次 Office AI 功能更新;但从产品位置看,它比“帮我总结文档”要往前走了一步。
微软高管 Sumit Chauhan 的说法是,早期基础模型能力不足,Copilot 只能被动回答问题。现在 Agent Mode 的方向,是让 Copilot 从问答助手变成能直接操作文档画布的代理。
这个变化很关键。Office 里的 AI 最初像一个站在旁边的同事,你问一句,它答一句;Agent Mode 想变成那个能上手改表格、写 slides、调整文档结构的人。问题是,上游没披露开放范围、定价,也没给完整动作清单。所以现在还不能判断它到底能动到什么程度。
但微软的优势也很清楚:它不需要发明一个新的工作入口。Word、Excel、PowerPoint 本来就在企业流程里,Copilot 只要能多接几步,就可能直接碰到预算、汇报、财务模型这些高频场景。
同一条线上,Anthropic 也给 Claude 新增了多款个人应用连接器,覆盖 Spotify、Uber、AllTrails、Instacart、TurboTax 等服务。连接后,Claude 可以在对话里直接建议调用相关应用,比如用 AllTrails 给徒步推荐。这里同样缺首批总数、地区、订阅门槛,但方向也很直:把消费服务接进对话流。
一个进办公室,一个进生活流。模型公司现在都在抢“下一步动作”的位置,而不是只抢“下一句回答”的位置。
入口不响,权限很贵。
Qwen3.6-27B 给大参数叙事拆了一块砖
今天开源模型里最值得看的,是 Qwen3.6-27B。它的故事不是“参数更多了”,反而是“参数少了,但某些任务更强”。
Qwen 团队开源了 Qwen3.6-27B,称它在 4 个智能体编程基准 上超过 Qwen3.5-397B。参数量只有后者大约 1/15。具体数字里,SkillsBench 从 30.0 升到 48.2,GPQA Diamond 为 87.8,AIME26 为 94.1。模型采用纯 Dense 架构,并引入 Thinking Preservation 和 Gated DeltaNet,权重已经上架 Hugging Face 与 ModelScope。
这条最有意思的地方,是它像一次来自内部的参数规模反驳。过去两年,行业很容易把“更大”默认等同于“更强”。但到了 agentic coding、推理保持、训练配方这些更细的方向,模型大小就不再是唯一主角。
当然,基准超过自家前代,不等于在所有真实任务里都能压过大模型。尤其智能体编程很吃工具链、执行环境、提示策略和评测设计。一个 27B Dense 模型在榜上表现漂亮,还需要看社区复现和实际部署成本。
但它给开源生态递了一个很清楚的信号:如果训练和架构做得更精,较小模型仍然能在一些高价值任务上逼近甚至超过更大前代。对企业来说,这比“又一个超大模型”更实在,因为部署、延迟、私有化成本都会跟着变。
大模型的故事还没结束,只是“越大越好”这句越来越不好用了。
钱还在涌进来,只是账本越来越硬
今天还有一组数字,放在一起看有点冷:有人用天价估值融资,有人把员工表直接砍掉。AI 的钱没有少,但它越来越像一张需要重新分配的账本。
Project Prometheus 完成 100 亿美元 融资,投后估值约 380 亿美元,由 Jeff Bezos 和前 Google 高管 Vik Bajaj 参与主导。上游没披露投资方、产品方向和交割时间,但“physical AI”能在这个阶段拿到这样的定价,已经说明市场愿意为“机器人 + 算力 + 供应链”的大故事提前付款。
另一边,AI 编程公司 Cognition 正在洽谈新一轮融资,目标估值 250 亿美元,较上一轮翻倍以上。这里同样缺 ARR、留存、融资规模、完成时间。所以这条不能只按“AI 编程需求旺盛”来理解,更该看的是资本给 AI 编程公司的定价速度。
DeepSeek 也在另一个方向上融资。它正以 200 亿美元 估值寻求首次融资,原因之一是减少竞争对手挖走研究人员。这个理由很真实,但也有点尴尬:顶级研究员要的可能不只是纸面估值,还包括算力、自由度、长期激励和二级流动性。
再看 Meta,画风就不一样了。它计划裁减 10% 员工,约 8000 人,并冻结 6000 个现有空缺岗位。彭博看到的内部备忘录称,裁员将于 5 月 20 日 启动;Meta 对置评请求未回应。上游给出的线索是,裁员用于压低成本,并对冲 AI 等方向的持续投入。
这几条拼在一起,AI 资金流向就很清楚了:资本继续给新故事高估值,大公司继续把工资单往算力和 AI 项目里挪。热钱没有退潮,只是变得更挑食。
以前是“all in AI”,现在更像“从谁身上挪钱 all in AI”。
模型选型和 PM 岗位,都变成调度题了
最后放两个不那么像新闻、但很有行业体感的小信号。
一个是关于模型选型。有篇文章比较 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro、DeepSeek V4 在任务派发里的差异,还说会整理两个真实踩坑场景。它没有给完整价格、评测指标和决策矩阵,所以不能当正式基准报告看。但这类文章本身的出现很说明问题:团队现在不再问“哪个模型最强”,而是在问“这类任务该派给谁”。
这也是今天几条主线的交汇点。GPT-5.5 强调 agentic coding 和工具使用,DeepSeek V4 用价格和长上下文打工程成本,Claude Code 的事故提醒大家产品层会影响体验,Qwen3.6-27B 又告诉你小模型也可能在特定任务里很能打。选型不再是榜单崇拜,而是调度策略。
另一个是 Claude Code 产品负责人 Cat Wu 的访谈被拿来讨论 Product Manager 在 AI 时代的职业路径。文章核心判断是:当工程执行成本下降后,PM 的重心会转向目标定义、学习回路设计和反馈提速。上游没有披露具体案例、数据或 Claude Code 的产品指标,但这个判断挺贴近现实。
AI 不会让 PM 这个角色一夜消失,但会先压缩“只会传话和排期”的中位数岗位。过去 PM 的一部分价值,是把需求拆给工程团队、跟进执行、推动交付;如果执行成本下降,这部分价值就会缩水。留下来的那部分,反而更难:定义什么值得做、怎么验证、怎么让团队更快从用户反馈里学习。
模型也是这样。以前大家想找一个“最强大脑”,现在更像在搭一套任务分发系统。谁便宜、谁稳、谁会用工具、谁适合长上下文、谁适合写代码、谁适合进 Office,都是调度问题。
AI 行业今天最像成熟的地方,可能不是模型名字越来越大,而是大家终于开始认真算这些小账。