AX 的 AI 日报 · 2026-05-06算力订座战

今天 AI 圈在拼算力合同，不是模型

2026年5月6日

今天 AI 圈最有意思的不在某个模型又能写代码了，是几张账本同时翻动：Anthropic 半年锁死四种芯片架构的算力，xAI 把自家超算整租给对手；DeepSeek 估值从 200 亿跳到 450 亿，国家队首次进场；月之暗面又融了 20 亿，估值冲到 200 亿。先来看 Anthropic 这一笔——不是囤货，是在主动把算力推成大宗商品。

Anthropic 半年签下四笔算力大单，xAI 把自家超算整租给了对手

这条我会先打个折——今天 AI 投资圈最大的数字是 400 亿美元，但更值得看的不是金额，是结构。

Anthropic 在六个月内接连锁定了 AWS Trainium、Google TPU、SpaceXAI Colossus 1 和 CoreWeave 的算力，覆盖了市面上三种主流芯片架构。同一时间，xAI 把拥有 22 万张 GPU 的 Colossus 1 数据中心全部租给了 Anthropic，而自家 GPU 利用率只有 11%。这两件事拼在一起，信号很明确：Anthropic 不是在囤货，是在主动把算力推成大宗商品——多供应商、多架构、不押单一来源。

这种"云厂商深度绑定大模型公司"的合同，之前已经出现过两次。Microsoft 和 OpenAI 的关系是最早的模板，Google 自己也在跟 Anthropic 谈一笔最高 400 亿美元的投资，其中 100 亿美元立即投入，剩下 300 亿取决于 Anthropic 是否达到特定营收目标。但 Anthropic 这次的做法更激进——不是等一家云厂商慢慢建，而是同时从四家拿货。

比较骚的是，xAI 这边建了超算中心，自家 Grok 用不上，反而整租给竞争对手。这暴露了一个尴尬：建得太快，需求跟不上。马斯克确认 xAI 解散，Grok 和 X 平台相关业务全部并入新实体 SpaceXAI，同时 Claude 用户直接受益——Claude Code 的 Pro、Max 等多档计划的五小时速率限制翻倍，高峰时段限流取消，Claude Opus 的 API 速率也大幅提升。

这一笔很贵，但很 Anthropic。

DeepSeek 估值从 200 亿跳到 450 亿，国家队首次进场

这条信息量很大，但先别太激动——450 亿美元这个数字目前还只是谈判桌上的。

FT 报道 DeepSeek 正在谈一轮新融资，估值接近 450 亿美元，腾讯是意向投资方之一。但更重要的信号来自另一条：国家队领投，国家大基金首次公开投资本土大模型公司。这不再是普通的 VC 轮，而是官方把 AI 大模型正式纳入"半导体国家战略"的关键信号。

估值在数周内从 200 亿美元跃升到 450 亿，创始人梁文锋也参与出资。但正文被付费墙挡住，没披露具体融资金额、条款和营收数据。关键要看这个估值跟模型实际收入能不能对上——缺少营收数据，这点先打个折。

同一时间，Reddit 网友扒了 922 条 agent 任务的实际调用记录，发现 DeepSeek v4 省钱的关键不在标价，在缓存命中率。两个模型每个任务都要吃掉大约 96 万 token，但 DeepSeek 单任务成本只要 0.01 美元，Opus 4.7 却要 **1.

52 美元**。差距不在输入输出的标价，而在缓存：DeepSeek 的缓存命中率远高于 Opus，重复调用时几乎不花钱。如果这个数据能复现，对跑大量 agent 任务的团队来说，省钱点很明确。

月之暗面又融 20 亿，估值冲到 200 亿

月之暗面（Moonshot AI）又拿钱了，这次大约融了 20 亿美元，估值直接拉到 200 亿美元。标题说美团是领投方，但缺少具体投资人名单、各自投了多少、出让了多少股份，也没说钱打算怎么花。

不过有个数据值得看：公司年度经常性收入在短期内从 1 亿美元快速增长到超 2 亿美元，付费订阅和 API 使用量均在加速。2025 年前六个月融资总额超 39 亿美元，估值较去年 11 月增长约 4 倍，成为中国累计融资额最高的 AI 初创公司。

这个估值信号很直接——市场对中国 AI 创业公司的胃口还很大。但信息缺口也不小：美团具体投了多少、钱怎么花、营收能不能撑起 200 亿估值，这些都还没说。先别急着下结论。

Claude 现在能自己翻聊天记录总结规则了，Harvey 实测任务完成率涨了约 6 倍

这条有点意思。Anthropic 给 Claude 的托管智能体加了三个新能力：Dreaming（做梦）、Outcomes（结果校验） 和多智能体协作。

其中"做梦"是指让 Claude 在后台读取最多 100 段历史会话，自己总结规则来改进表现。一次演示里它把 530 万 token 的对话提炼成了 98 条规则。法律 AI 公司 Harvey 实测后，任务完成率比之前涨了约 6 倍。

但这里有个信息缺口：缺少具体基线和测试集。"暴涨 6 倍"听起来很猛，但不知道是从什么基线涨上来的、测的是什么任务、有没有对照组。这点先别太激动。不过方向是对的——让模型从自己的历史交互中学习，而不是每次都从零开始，这比单纯堆参数更实用。

编程助手开始往"长链路、少盯屏"方向走

今天有几条都指向同一个趋势：编程助手从"人在旁边盯着"变成"扔给它自己跑"。

Amp 推出了新的命令行工具 Neo，核心变化是支持远程控制本地线程、自动压缩上下文（不用再手动清理对话历史），并开放了 Plugin API 来扩展工具和交互方式。安全策略做了个大反转：默认允许所有操作，把安全把关交给插件系统。官方说 CPU 和内存占用也降了不少，但缺少具体版本号、价格和实测性能数据——这点先别太激动。

Flue 是一个新的 TypeScript 框架，号称能帮你搭出类似 Claude Code 那种能自己跑流程的智能体。安装方式很特别：直接 fetch 一个 start.md 文件就能开始，挺有 Geek 范儿。但缺少许可证、版本号、维护者是谁，也没有任何跑分或对比数据，想用在生产环境还得再观望。

TACO 是一套不用额外训练的命令行输出压缩方法，让模型在执行任务时自己发现哪些终端回显是废话、哪些必须保留。它在 TerminalBench 1.0 和 2.0 上同时提升了任务成功率和 token 利用率，并发现 TerminalBench 2.

0 的原始提示里有 24.6% 到 44.1% 的低价值冗余。核心机制是"任务内进化规则 + 全局规则池"，让 agent 自己学会扔掉没用的上下文。

这三条放在一起看，方向很明确：编程助手不再只是"陪聊"，而是往长链路、少盯屏、自己管理上下文的方向走。但 Amp 和 Flue 都缺关键信息，TACO 是学术论文，离生产还有距离。

几个新基准：模型在系统工程和安全上还差得远

今天出了两个值得看的新基准，结果都不太好看。

SWE-Bench 作者 出了新基准 ProgramBench，让模型从零复刻完整软件项目，只给可执行文件和说明文档，不给源码和测试。评测不看单函数写得对不对，而是用模糊测试跑行为一致性，看整个系统能不能用。结果 Claude Opus 4.7、**GPT-5.

4**、Gemini 3.1 Pro 全部零完成率，一个都没跑通。这说明现在的模型离独立做系统工程还差得远，之前靠刷单函数题拿高分那套在这不管用。

EnterpriseRAG-Bench 放出了一个 50 万文档的语料库，专门用来测 RAG 在公司内部数据上的表现。它模拟了 Redwood Inference 的 9 种数据源，并围绕 10 种检索失败模式设计了 500 个问题。基线测试显示，BM25 在整体上优于向量检索，而基于 agent/bash 的检索方式虽然完整度最高，但成本和延迟也明显更高。这个基准对做企业级 RAG 的团队挺实用——不是刷榜，是模拟真实场景里的失败模式。

今日小信号

OpenAI 和 Anthropic 分别成立企业 AI 服务合资公司：Anthropic 跟黑石等几家华尔街机构搞了个合资公司，总共融了 15 亿美元，每家出 3 亿。做法是先派小团队去客户那搞清楚 Claude 能在哪发挥最大作用，然后工程师再上手定制系统。OpenAI 那边动作更大，成立了一家叫 The Deployment Company 的子公司，估值 100 亿融了 40 亿。这不再是卖 API，而是派工程师进客户公司定制系统。模型公司开始亲自下场做企业服务了。
Apple 因延迟推出 AI Siri 功能达成 2.5 亿美元和解：苹果同意支付 2.5 亿美元，和解一场关于 Siri 人工智能功能宣传的集体诉讼。诉讼指控苹果在 iPhone 16 发布前过度承诺了 Siri 的 AI 能力，但实际功能迟迟没上线。这笔钱怎么分、涉及多少用户，报道里都没提。
Mira Murati 作证称 Sam Altman 就 AI 模型安全流程误导她：前 CTO 在 Musk 诉 Altman 案中宣誓作证，说 Altman 曾就一个新模型的安全流程对她撒谎。Altman 声称法务部门已批准跳过部署安全委员会的审查，但 Murati 发现事实并非如此。报道没透露具体是哪个模型。这件事的核心争议点在于 OpenAI 内部的安全治理到底有没有人真正在把关。
Anthropic 在 Qwen 上试了新训练法，把模型乱说话比例从六成压到个位数：在预训练和对齐微调之间加一个叫 MSM 的训练阶段，在 Qwen2.5-32B 和 Qwen3-32B 上测试，模型乱说话的比例分别从 68% 和 54% 降到了 5% 和 7%。但正文被验证页挡了，细节看不到。
单张 RTX 5090 跑通 Qwen 3.6 27B 200k 上下文：一位 Reddit 用户在单张 32GB 显存的 RTX 5090 上，用 vLLM 跑通了 Qwen3.6 27B 的 NVFP4 量化版，10 次 200k 上下文跑分平均生成速度 73.6 tok/s，首 token 延迟 1.2 秒。但这是个人晒图，没第三方复现，先当参考。