今天 AI 圈在拼算力合同,不是模型
今天 AI 圈最有意思的不在某个模型又能写代码了,是几张账本同时翻动:Anthropic 半年锁死四种芯片架构的算力,xAI 把自家超算整租给对手;DeepSeek 估值从 200 亿跳到 450 亿,国家队首次进场;月之暗面又融了 20 亿,估值冲到 200 亿。先来看 Anthropic 这一笔——不是囤货,是在主动把算力推成大宗商品。
Anthropic 半年签下四笔算力大单,xAI 把自家超算整租给了对手
这条我会先打个折——今天 AI 投资圈最大的数字是 400 亿美元,但更值得看的不是金额,是结构。
Anthropic 在六个月内接连锁定了 AWS Trainium、Google TPU、SpaceXAI Colossus 1 和 CoreWeave 的算力,覆盖了市面上三种主流芯片架构。同一时间,xAI 把拥有 22 万张 GPU 的 Colossus 1 数据中心全部租给了 Anthropic,而自家 GPU 利用率只有 11%。这两件事拼在一起,信号很明确:Anthropic 不是在囤货,是在主动把算力推成大宗商品——多供应商、多架构、不押单一来源。
这种"云厂商深度绑定大模型公司"的合同,之前已经出现过两次。Microsoft 和 OpenAI 的关系是最早的模板,Google 自己也在跟 Anthropic 谈一笔最高 400 亿美元的投资,其中 100 亿美元立即投入,剩下 300 亿取决于 Anthropic 是否达到特定营收目标。但 Anthropic 这次的做法更激进——不是等一家云厂商慢慢建,而是同时从四家拿货。
比较骚的是,xAI 这边建了超算中心,自家 Grok 用不上,反而整租给竞争对手。这暴露了一个尴尬:建得太快,需求跟不上。马斯克确认 xAI 解散,Grok 和 X 平台相关业务全部并入新实体 SpaceXAI,同时 Claude 用户直接受益——Claude Code 的 Pro、Max 等多档计划的五小时速率限制翻倍,高峰时段限流取消,Claude Opus 的 API 速率也大幅提升。
这一笔很贵,但很 Anthropic。
DeepSeek 估值从 200 亿跳到 450 亿,国家队首次进场
这条信息量很大,但先别太激动——450 亿美元这个数字目前还只是谈判桌上的。
FT 报道 DeepSeek 正在谈一轮新融资,估值接近 450 亿美元,腾讯是意向投资方之一。但更重要的信号来自另一条:国家队领投,国家大基金首次公开投资本土大模型公司。这不再是普通的 VC 轮,而是官方把 AI 大模型正式纳入"半导体国家战略"的关键信号。
估值在数周内从 200 亿美元跃升到 450 亿,创始人梁文锋也参与出资。但正文被付费墙挡住,没披露具体融资金额、条款和营收数据。关键要看这个估值跟模型实际收入能不能对上——缺少营收数据,这点先打个折。
同一时间,Reddit 网友扒了 922 条 agent 任务的实际调用记录,发现 DeepSeek v4 省钱的关键不在标价,在缓存命中率。两个模型每个任务都要吃掉大约 96 万 token,但 DeepSeek 单任务成本只要 0.01 美元,Opus 4.7 却要 **1.
52 美元**。差距不在输入输出的标价,而在缓存:DeepSeek 的缓存命中率远高于 Opus,重复调用时几乎不花钱。如果这个数据能复现,对跑大量 agent 任务的团队来说,省钱点很明确。
月之暗面又融 20 亿,估值冲到 200 亿
月之暗面(Moonshot AI)又拿钱了,这次大约融了 20 亿美元,估值直接拉到 200 亿美元。标题说美团是领投方,但缺少具体投资人名单、各自投了多少、出让了多少股份,也没说钱打算怎么花。
不过有个数据值得看:公司年度经常性收入在短期内从 1 亿美元快速增长到超 2 亿美元,付费订阅和 API 使用量均在加速。2025 年前六个月融资总额超 39 亿美元,估值较去年 11 月增长约 4 倍,成为中国累计融资额最高的 AI 初创公司。
这个估值信号很直接——市场对中国 AI 创业公司的胃口还很大。但信息缺口也不小:美团具体投了多少、钱怎么花、营收能不能撑起 200 亿估值,这些都还没说。先别急着下结论。
Claude 现在能自己翻聊天记录总结规则了,Harvey 实测任务完成率涨了约 6 倍
这条有点意思。Anthropic 给 Claude 的托管智能体加了三个新能力:Dreaming(做梦)、Outcomes(结果校验) 和多智能体协作。
其中"做梦"是指让 Claude 在后台读取最多 100 段历史会话,自己总结规则来改进表现。一次演示里它把 530 万 token 的对话提炼成了 98 条规则。法律 AI 公司 Harvey 实测后,任务完成率比之前涨了约 6 倍。
但这里有个信息缺口:缺少具体基线和测试集。"暴涨 6 倍"听起来很猛,但不知道是从什么基线涨上来的、测的是什么任务、有没有对照组。这点先别太激动。不过方向是对的——让模型从自己的历史交互中学习,而不是每次都从零开始,这比单纯堆参数更实用。
编程助手开始往"长链路、少盯屏"方向走
今天有几条都指向同一个趋势:编程助手从"人在旁边盯着"变成"扔给它自己跑"。
Amp 推出了新的命令行工具 Neo,核心变化是支持远程控制本地线程、自动压缩上下文(不用再手动清理对话历史),并开放了 Plugin API 来扩展工具和交互方式。安全策略做了个大反转:默认允许所有操作,把安全把关交给插件系统。官方说 CPU 和内存占用也降了不少,但缺少具体版本号、价格和实测性能数据——这点先别太激动。
Flue 是一个新的 TypeScript 框架,号称能帮你搭出类似 Claude Code 那种能自己跑流程的智能体。安装方式很特别:直接 fetch 一个 start.md 文件就能开始,挺有 Geek 范儿。但缺少许可证、版本号、维护者是谁,也没有任何跑分或对比数据,想用在生产环境还得再观望。
TACO 是一套不用额外训练的命令行输出压缩方法,让模型在执行任务时自己发现哪些终端回显是废话、哪些必须保留。它在 TerminalBench 1.0 和 2.0 上同时提升了任务成功率和 token 利用率,并发现 TerminalBench 2.
0 的原始提示里有 24.6% 到 44.1% 的低价值冗余。核心机制是"任务内进化规则 + 全局规则池",让 agent 自己学会扔掉没用的上下文。
这三条放在一起看,方向很明确:编程助手不再只是"陪聊",而是往长链路、少盯屏、自己管理上下文的方向走。但 Amp 和 Flue 都缺关键信息,TACO 是学术论文,离生产还有距离。
几个新基准:模型在系统工程和安全上还差得远
今天出了两个值得看的新基准,结果都不太好看。
SWE-Bench 作者 出了新基准 ProgramBench,让模型从零复刻完整软件项目,只给可执行文件和说明文档,不给源码和测试。评测不看单函数写得对不对,而是用模糊测试跑行为一致性,看整个系统能不能用。结果 Claude Opus 4.7、**GPT-5.
4**、Gemini 3.1 Pro 全部零完成率,一个都没跑通。这说明现在的模型离独立做系统工程还差得远,之前靠刷单函数题拿高分那套在这不管用。
EnterpriseRAG-Bench 放出了一个 50 万文档的语料库,专门用来测 RAG 在公司内部数据上的表现。它模拟了 Redwood Inference 的 9 种数据源,并围绕 10 种检索失败模式设计了 500 个问题。基线测试显示,BM25 在整体上优于向量检索,而基于 agent/bash 的检索方式虽然完整度最高,但成本和延迟也明显更高。这个基准对做企业级 RAG 的团队挺实用——不是刷榜,是模拟真实场景里的失败模式。
今日小信号
-
OpenAI 和 Anthropic 分别成立企业 AI 服务合资公司:Anthropic 跟黑石等几家华尔街机构搞了个合资公司,总共融了 15 亿美元,每家出 3 亿。做法是先派小团队去客户那搞清楚 Claude 能在哪发挥最大作用,然后工程师再上手定制系统。OpenAI 那边动作更大,成立了一家叫 The Deployment Company 的子公司,估值 100 亿融了 40 亿。这不再是卖 API,而是派工程师进客户公司定制系统。模型公司开始亲自下场做企业服务了。
-
Apple 因延迟推出 AI Siri 功能达成 2.5 亿美元和解:苹果同意支付 2.5 亿美元,和解一场关于 Siri 人工智能功能宣传的集体诉讼。诉讼指控苹果在 iPhone 16 发布前过度承诺了 Siri 的 AI 能力,但实际功能迟迟没上线。这笔钱怎么分、涉及多少用户,报道里都没提。
-
Mira Murati 作证称 Sam Altman 就 AI 模型安全流程误导她:前 CTO 在 Musk 诉 Altman 案中宣誓作证,说 Altman 曾就一个新模型的安全流程对她撒谎。Altman 声称法务部门已批准跳过部署安全委员会的审查,但 Murati 发现事实并非如此。报道没透露具体是哪个模型。这件事的核心争议点在于 OpenAI 内部的安全治理到底有没有人真正在把关。
-
Anthropic 在 Qwen 上试了新训练法,把模型乱说话比例从六成压到个位数:在预训练和对齐微调之间加一个叫 MSM 的训练阶段,在 Qwen2.5-32B 和 Qwen3-32B 上测试,模型乱说话的比例分别从 68% 和 54% 降到了 5% 和 7%。但正文被验证页挡了,细节看不到。
-
单张 RTX 5090 跑通 Qwen 3.6 27B 200k 上下文:一位 Reddit 用户在单张 32GB 显存的 RTX 5090 上,用 vLLM 跑通了 Qwen3.6 27B 的 NVFP4 量化版,10 次 200k 上下文跑分平均生成速度 73.6 tok/s,首 token 延迟 1.2 秒。但这是个人晒图,没第三方复现,先当参考。