ax@ax-radar:~/daily/2026-04-23 $ cat newsletter/daily/2026-04-23.md
41 srcsignal 72%cycle 04:32
AX 的 AI 日报 · 2026-04-23效率与钱

GPT-5.5 把成本打骨折,DeepSeek 开始谈钱

今天 AI 圈两条主线:OpenAI 发了 GPT-5.5,不是简单刷榜,是把完成同一任务的 token 成本压到了 1/35,效率提升比跑分更值得看。另一边,DeepSeek 第一次对外融资,估值喊到 200 亿美元,不是为了扩张,是用股权留住被挖角的研究员。再加上 Anthropic 承认 Claude Code 变笨是自己改配置翻的车、Meta 裁 8000 人给 AI 腾预算,今天的信息量不小。先看 GPT-5.5 这一下到底改了啥。

GPT-5.5 不是刷榜,是把成本打骨折了

OpenAI 今天发了 GPT-5.5,已经在 ChatGPT 和 Codex 里能用,API 还要等安全加固。跑分确实涨了:**Terminal-Bench 2.0 拿了 82.

7%**,SWE-Bench Pro 58.6%,API 支持 100 万 token 上下文窗口。但说实话,这些数字不是今天最值得看的部分。

真正有意思的是效率。OpenAI 说完成同一任务,GPT-5.5 消耗的 token 比前代少得多,成本压到了 1/35,每兆瓦 token 输出量提升了 50 倍。这个数字如果属实,意味着以前跑一次复杂任务要花几美元,现在可能只要几美分。英伟达已经在内部部署了,说调试时间从几天缩到了几小时。

安全公司 XBOW 用真实漏洞库测了一下,GPT-5.5 的漏报率压到了 10%,比 GPT-5 的 40% 和 Claude Opus 4.6 的 18% 都低。更关键的是,GPT-5.

5 不看源码(黑盒)的效果已经超过了 GPT-5 看源码(白盒)的水平。一旦给它源码,性能直接拉爆,把 XBOW 的基准测试给"杀穿"了。不过这是安全厂商自家的基准,别直接当通用结论。

OpenAI 还发起了 GPT-5.5 Bio Bug Bounty,悬赏最高 2.5 万美元找生物安全相关的越狱漏洞。这个动作说明他们自己也知道模型能力上来了,安全边界得重新测。

Codex 接入 GPT-5.5,从写代码工具变成干活智能体

Codex 这次更新不只是换了个模型。它现在能直接操控浏览器,自己点击页面、填表、截图看结果,走完整个流程再告诉你哪里有问题。文档方面,可以在 Microsoft OfficeGoogle Drive 里直接生成表格、幻灯片和文档。电脑操控能力也跟着 GPT-5.5 增强了,能看屏幕、点击、拖拽,把之前停掉的 Prism 功能并了进来。

还有一个细节:Codex 现在能审高风险动作了。比如它要删文件或执行敏感命令,会先停下来让你确认。这个设计说明 OpenAI 在推 agent 能力的同时也在加护栏——让模型能干更多事,但不能乱来。

不过正文没提价格和灰度范围。现在只知道功能上了,成本边界还看不到。如果你在跑生产环境,先别急着切。

DeepSeek V4 发了,但重点不是跑分

DeepSeek 今天发了 V4,分 ProFlash 两个版本,都支持 100 万 token 上下文窗口。Pro 版总参数 1.6 万亿,每次推理激活 490 亿;Flash 版总参数 2840 亿,激活 130 亿。跑分不是最顶尖的,但这不是重点。

真正的改进在推理成本上。跟 V3.2 比,Pro 版处理单个 token 的算力只要 27%,KV 缓存占用压到了 15-25%。翻译成人话:同样的任务,现在花的钱和算力都少了一大截。DeepSeek 一直走的是"用效率换规模"的路子,V4 把这条路线又往前推了一步。

与此同时,DeepSeek 正在启动第一轮外部融资,目标估值约 200 亿美元。FT 的报道说核心目的不是缺钱扩张,而是用更高的股权激励来对抗竞争对手对核心研究员的挖角。此前已有人员流失,但具体数字没披露。这个信号很直白:人才争夺战里,光靠技术理想留不住人,得靠真金白银的股权。

Anthropic 承认 Claude Code 变笨是自己改配置翻的车

最近不少用户感觉 Claude Code 变笨、变健忘。Anthropic 发了一篇事故复盘,确认问题出在三次产品层改动上,API 和模型本身没变。

第一,3 月 4 日他们把默认的思考强度从"高"调成了"中",想解决高思考模式下界面卡死的问题,结果用户普遍觉得模型变蠢了,4 月 7 日又改了回去。第二,3 月 26 日上线了一个缓存优化,本意是提速,结果 bug 把智能体的记忆清空了。第三,提示词压字数压坏了代码质量。三项改动在 4 月 20 日全部修复。

坦率地讲,这个复盘写得挺实在。没有甩锅给模型,也没有说"用户感知有误",直接承认是产品层的改动翻车。但反过来想,一个缓存优化能把记忆清空,提示词压字数能压坏代码质量——这说明他们的测试覆盖和灰度发布流程还有不小的坑。

Claude 加记忆、接个人 App,Anthropic 在铺消费场景

Anthropic 今天还发了两个更新。一是给 Claude 托管智能体加了记忆功能,现在公测。智能体能把之前会话里学到的经验存成文件,下次干活直接读,不用每次从头教。实现方式很朴素:记忆就是文件系统上的文件,智能体用 bash 和代码能力直接读写,开发者也能通过 API 导出或回滚。Rakuten 用上之后首次出错率降了 97%。不过这个数字缺测试规模和任务类型,好看但缺上下文。

二是 Claude 新增了十多个消费应用连接器,首批接入 Spotify、Uber、AllTrails、InstacartTurboTax 这类日常服务。连上之后,你在聊天里提需求,Claude 会主动推荐用哪个 App 来办——比如想找徒步路线,它就直接调 AllTrails。这标志着 Claude 从办公场景正式踏进个人生活消费的领域。但正文没写支持哪些地区、哪个套餐能用,先别急着切掉现有助手。

Meta 裁 8000 人给 AI 腾预算,备忘录写得很直白

彭博社拿到的一份内部备忘录显示,Meta 计划从 5 月 20 日开始裁掉 10% 的员工,也就是 8000 人,另外还有 6000 个空缺岗位不招了。首席人力官 Janelle Gale 在备忘录里把话说得很直白:这是为了让公司运转更高效,好腾出钱来填 AI 等其他投资的坑。

Meta 在元宇宙上砸了几百亿美元基本打了水漂,现在又得猛追 AI,月初刚发了新模型 Muse Spar。裁员的钱直接流向算力和人才,这个逻辑在硅谷大厂里越来越常见。但 8000 人不是小数目,加上冻结的 6000 个岗位,相当于砍掉了 14000 个位置。

今日小信号

  • Qwen3.6-27B 开源发布,270 亿参数在四项智能体编程基准上跑赢了自家 3970 亿参数的前代旗舰,SkillsBench 从 30.0 跳到 48.2。但缺少验证环境和复现细节,先别太激动。
  • Cognition 正在谈新一轮融资,估值叫到 250 亿美元,比上一轮翻了一倍多。但投资人、金额和业务数据都没公开,目前只有彭博的简短消息。
  • 贝索斯的 AI 实验室 Project Prometheus 完成 100 亿美元融资,估值约 380 亿美元。领投的是贝索斯本人,但产品、团队、时间表全被付费墙挡了。
  • 微软把 Copilot 的 Agent Mode 推给了 Microsoft 365 Copilot 和 Premium 用户,能从聊天框升级成直接操作文档。但报道没写具体能干什么、要加多少钱。
  • xAI 发了 Grok Voice Think Fast 1.0,在 τ-voice Bench 全双工语音排行榜排第一,已用在 Starlink 的销售和客服,电话销售转化率 20%,客服自主解决率 70%。

更多

频道

后台