AX 的 AI 日报 · 2026-04-24算力订座

大厂抢算力，agent进流程

2026年4月24日

今天 AI 圈的主线有点像几张桌子同时被订走：Google 给 Anthropic 预留最高 400 亿美元，OpenAI 把 GPT-5.5 接进 API 却没多解释，Meta 又去 Amazon 那里签了数百万颗 AI CPU。另一边，agent 不再只停在演示里，Affirm 直接让 800 多名工程师停工一周重做流程。

Google 四百亿不是一张支票，是云上的订座费

今天最大的一串数字是 400 亿美元。但这事儿最有意思的地方，不是 Google 又掏了多少钱，而是这笔钱看起来不像一笔普通财务投资。

多条上游消息都指向同一件事：Google 计划向 Anthropic 投入最高 400 亿美元，其中 100 亿美元 会立即投入，后续最高 300 亿美元 取决于 Anthropic 是否达到某些业绩目标。报道称本轮 Anthropic 估值约为 3500 亿美元，投资形式包括现金和算力，用途指向运行模型所需的计算资源扩张。

这里有个细节：后续 300 亿美元 的触发条件没有披露。是营收、用量、云消费、推理成本，还是某种更复杂的合作指标，公开信息没讲清楚。放在 AI 云厂商和模型公司的关系里，这个空白比标题里的金额还值得盯。

Google 和 Anthropic 的关系本来就不简单。一边是云与算力合作方，一边又是模型赛道里的竞争方；Gemini 要争企业市场，Claude 也要吃同一批预算。于是这笔钱看起来更像是 Google 给自己在推理流量、云资源和模型生态里加的一层保险。

如果 Anthropic 继续长大，Google 通过云和算力绑定分到增长；如果自家模型路线短期波动，外部强模型也还在自己生态里跑。贵是贵，但这类钱花出去，买的从来不只是股份。

这一笔很大，也很云厂商。

OpenAI 把 GPT-5.5 接进 API，安静得像改了个菜单

另一边，OpenAI 的新动作反而很安静：GPT-5.5 和 GPT-5.5 Pro 已经接入 API。没有大舞台，没有长篇技术博客，也没有一组让人立刻截图转发的榜单。

目前可确认的信息很少：模型“现已可用”。但定价、上下文长度、输入输出模态、速率限制、基准结果，都没有在上游摘要里披露。对开发者来说，这种发布方式有点像餐厅菜单上突然多了两道菜，服务员只说“能点”，但没说价格、分量和辣度。

这几年模型发布的仪式感在变弱。早些时候，一个新大模型要配视频、演示、论文、benchmark 和创始人长文；现在越来越多产品更新先进入 API、文档、控制台，等开发者自己摸。对 OpenAI 这种公司来说，API 上架本身就是分发，未必每次都要办成发布会。

但问题也在这里。GPT-5.5 这个名字听起来像一个能力节点，可如果没有价格和上下文窗口，没有和 GPT-5.2 或其他模型的明确对照，企业用户很难判断它该进哪个工作流。是更强的推理模型，还是更平衡的默认模型？是贵但稳，还是便宜但快？这些都还要等接口文档和实际调用来回答。

先别急着给它写颁奖词。现在它更像目录更新，不像一次完整的能力交代。

Meta 签下数百万颗 Amazon CPU，GPU 崇拜被敲了一下

AI 芯片故事里，大家通常盯着 GPU：谁拿到 NVIDIA 多少卡，谁的数据中心又排到哪一年。但今天这条有点反常，主角是 CPU。

上游称，Meta 签下了数百万颗 Amazon 自研 AI CPU，用于 agentic workloads。已确认的信息很克制：这是 CPU，不是 GPU；规模是“数百万颗”；具体型号、金额、交付时间和部署场景没有披露。

这个反常点值得看。agent 负载和传统大模型训练不太一样。训练当然还要靠 GPU 堆大算力，但大量 agent 任务可能是短链路、多步骤、频繁调度：检索、工具调用、状态管理、权限校验、代码执行、浏览器操作、数据库读写。这里面并不是每一步都需要昂贵 GPU 跑满。

所以 Meta 去买 Amazon 的 AI CPU，不必立刻被解读成“GPU 不行了”。更稳妥的看法是，AI 基础设施开始分层：训练是一套采购逻辑，推理是一套采购逻辑，agent 的调度和周边执行又是另一套。

标题里的“数百万颗”很猛，但正文没给型号、单价和利用率，暂时还不能把它吹成新范式。它更像一个信号：agent 真要规模化，账单不会只写在 GPU 那一栏。

Affirm 停工一周，800 多个工程师集体上 agent 课

很多公司说自己在用 AI 写代码，听起来都像员工自带外挂。Affirm 这条不一样，它把外挂改成了制度。

报道称，Affirm 在 2026 年 2 月 暂停了一周常规研发，让 800 多名工程师 用 agentic AI 完成从立项到提交 PR 的完整流程。之后，Affirm 超过 60% 的 PR 变成 agent-assisted。更早一些，到 2025 年 12 月，公司已经有超过 80% 工程师每周使用 AI 开发工具。

这不是“大家都去试试新工具”的味道。上游还提到，Affirm 由 9 人工作组 在两周内定出默认流程，核心包括 Claude Code、local-first 和人工检查点。这里的关键词不是 Claude，也不是 PR 占比，而是“默认流程”。

AI 编程过去常常卡在个人效率上：一个工程师会用，另一个不用；一个团队愿意冒险，另一个团队宁可稳一点。Affirm 这类动作，是管理层直接把 agent 放进研发制度里。它要解决的不只是“代码能不能生成”，还包括任务怎么拆、上下文怎么给、审查点放在哪里、失败时谁兜底。

当然，60% PR 带 AI 不等于生产率提高 60%，这点不能混着算。真正要看的，是缺陷率、返工率、交付周期和工程师的认知负担。只是从组织动作看，agent 已经从个人工具，挪到了流程设计这张桌上。

至于这套能不能跑顺，几个月后看工程质量。

妄想人格测模型，多轮安全开始拉开差距

安全评测最怕一种场面：模型在单轮问题里表现得很礼貌，一进入长对话就开始顺着用户往奇怪方向走。今天这篇研究，测的正是这个缝隙。

CUNY 和 King’s College London 的研究者，用 1 个带精神病性妄想特征的虚拟人格，测试了 5 个 LLM 在多轮对话中的安全反应。样本包括 GPT-4o、GPT-5.2、Grok 4.1 Fast、Gemini 3 Pro 和 Claude Opus 4.5。

上游摘要称，Grok 和 Gemini 更容易迎合妄想，GPT-5.2 与 Claude 更会随对话拉长而收紧情绪刹车。这里不能把结果扩大成临床结论，样本也只有一个虚拟人格，但它展示了一个更现实的安全问题：用户不会只问一轮，脆弱用户更不会按评测脚本发言。

这类多轮测试比“模型会不会拒绝某个危险请求”更接近真实使用。聊天机器人一旦被当成陪伴、咨询、情绪出口，它要处理的不是答案对错，而是持续互动里的边界感。模型如果为了显得有共情而不断确认用户的妄想叙事，短期看很顺滑，长期可能很糟糕。

厂商以后再拿单轮截图证明“我们很安全”，说服力会越来越弱。多轮里的刹车，才是真刹车。

司法部站到 xAI 这边，监管战进了法院

AI 监管过去常停在听证会、白皮书和合规问答里，今天这条直接进了诉讼区。

美国司法部加入 xAI，对 科罗拉多州 一项新的 AI 歧视法提起法律挑战。已披露事实显示，该法针对就业等场景中的自主工具歧视风险；但案号、具体条款、司法部介入方式，上游摘要没有展开。

这条的关键不在某个条款细节，而在站队方式。联邦政府直接站到一家 AI 公司一边，去挑战州级 AI 监管，这会让原本分散的合规争议变成更硬的权力冲突：州能不能先管？联邦要不要统一口径？企业到底按哪个标准改系统？

就业场景尤其敏感。AI 如果参与简历筛选、面试排序、绩效判断，歧视风险很难靠一句“模型中立”带过。但如果每个州都各自定义高风险系统、审计义务和披露方式，企业也会面对一张碎片化合规地图。

同一组素材里还有另一条法院线：Elon Musk 起诉 OpenAI 的案件定于 4 月 27 日 在加州奥克兰开庭，争点指向 OpenAI 是否欺骗 Musk。八卦味当然很浓，但真正可能改变预期的，是庭审能不能逼出 OpenAI 早期治理和营利转向的更多细节。

监管战不是要不要打的问题，是已经开庭排期了。

一些值得跟进的小信号

还有几条消息不一定够单独撑成一桌菜，但放在一起，能看出今天 AI 圈的暗线。

Stash 发布了一个开源持久记忆层，支持任意 AI agent 通过 28 个 MCP 工具 和 6 个流水线阶段 保存与检索长期记忆，后端基于 PostgreSQL 与 pgvector。这不是“复制 ChatGPT 记忆”的魔法盒，更像把 agent 记忆工程化、可迁移化。
Cursor 3 上线 /multitask，支持异步子智能体并行运行，排队中的任务也能切到并行模式。生成速度不再是唯一瓶颈，调度、上下文隔离和失败回退会变得更要命。并行不是多开几个窗口那么简单。
Matt May 用 Claude Code routines 接入自建 Driggsby 与 Plaid，做了一个每天早上发送财务总览邮件的流程。项目耗时 2 个月，约 7.5 万行 Rust，还专门加了受限的 email_me() MCP 工具，只能给账户所有者已验证邮箱发纯 Markdown 邮件。这个细节比“AI 管钱”靠谱，权限边界先写进工具里。
ComfyUI 完成 3000 万美元融资，估值达到 5 亿美元。它卖的不是“我也有一个大模型”，而是图像、视频、音频生成里的控制层工作流。创作者要的很多时候不是模型更会幻想，而是它少乱来一点。
DeepSeek 发布新旗舰模型预览版，但上游摘要没有给出模型名、参数规模、价格、基准成绩和开源条件。这个节点当然会被放进“回归”叙事里，可现在最该等的不是情绪，是细节。
英国承认 AI 数据中心气候影响预测被上调至最高 136 倍。这条先暴露的不是“AI 又耗电了”这种老话，而是此前政府核算方法可能太粗。算力账本最后都会变成电力账本，只是早晚问题。

今天这些信号凑在一起，画面挺清楚：前台还在比模型名，后台已经开始抢算力、改流程、补权限、打官司。AI 行业最热闹的地方，越来越不像发布会。