DeepSeek V4 把百万上下文打到白菜价,Google 四百亿锁 Anthropic
今天 AI 圈两条主线:DeepSeek V4 开源,百万 token 上下文、价格低到 Flash 版每百万 token 只要 0.14 美元,还直接跑在华为昇腾上;Google 给 Anthropic 备了 400 亿美元,先掏 100 亿现金,后面 300 亿要看业绩。中间夹着 OpenAI 把 GPT-5.5 静悄悄接进 API、Affirm 让 800 多工程师停工一周改流程用 agent、Anthropic 在自家客户端里开放别家模型。先看 DeepSeek 这一下。
DeepSeek V4 把百万上下文打到白菜价,还跑在华为昇腾上
DeepSeek 终于发了 V4 系列,一共两个型号:V4 Pro 和 V4 Flash。Pro 版总参数 1.6 万亿,每次激活 490 亿;Flash 版总参数 2840 亿,激活 130 亿。两个都支持 100 万 token 上下文,用了新的压缩注意力技术,相比 V3.2,处理长文本时计算量只要 27%,显存占用只要 10%。
价格是这次最狠的一刀。Flash 版输入每百万 token 0.14 美元、输出 0.28 美元,比 GPT-5.
4 Nano 还低;Pro 版输入 1.74 美元、输出 3.48 美元,在同类大模型里是最低的。Simon Willison 的评价很直接:接近前沿性能,但只需要一小部分成本。
更值得看的是硬件。这次 DeepSeek 同时发了基础版和指令版,而且明确说能在华为昇腾芯片上跑。vLLM 在发布当天就给了支持,通过共享 K/V、逆 RoPE、KV 压缩和稀疏注意力四项技术,把 100 万上下文下的每层 KV 状态大小压到 V3.2 的约 1/8.7。SGLang 和 Miles 训练框架也在首日给了全栈支持。
跑分上,V4 Pro 在编程、数学、STEM 和竞赛型代码测评里超过所有开源模型,Agent 能力在开源里排第一。Artificial Analysis 的数据显示,V4 Pro 在衡量智能体真实工作任务的 GDPval-AA 评估里拿了 1554 分,超过 GLM-5.1、MiniMax-M2.7 和 Kimi K2.6。
但跑分和实际落地之间还有距离。百万上下文在真实场景里怎么用、长文本推理的稳定性怎么样,这些得等开发者实际跑过才知道。不过有一点是确定的:做 agent 开发的人,可以认真看看成本能砍多少了。
Google 四百亿不是一张支票,是给 Gemini 上的双保险
这一下我有点愣住了——今天 AI 投资圈最大的数字是 400 亿美元,但更值得看的不是金额,是结构。
Google 计划向 Anthropic 投资最高 400 亿美元,其中 100 亿美元现金立即投入,把 Anthropic 估值推到 3500 亿美元。后面还有 300 亿美元,但能不能拿到要看 Anthropic 能不能完成一些没公开的业绩指标。这 300 亿里有一部分是算力资源,具体怎么折算、目标是什么,正文都没说。
这种"云厂商深度绑定大模型公司"的合同之前出现过两次。Microsoft 和 OpenAI 的关系是最早的模板,AWS 和 Anthropic 也走过类似的路。但 Google 这次的结构更复杂:现金加算力、分期付款、业绩对赌,更像 1990 年代末电信公司签长途光纤容量战时的合同。
比较骚的是触发条件没有公开。Anthropic 这个月刚把新模型 Mythos 小范围放给合作伙伴,如果 Mythos 的表现是触发条件之一,那 Google 等于在赌 Anthropic 的下一个模型能打。如果不是,那这 300 亿更像一个长期算力锁仓协议。
同一天 Google 在 Cloud Next 2026 上还放了三招:把第八代 TPU 拆成训练用的 8t 和推理用的 8i,8i 内存带宽比 8t 还高,专门对付长上下文推理;推出 TorchTPU,让 PyTorch 代码能直接在 TPU 上跑;以及给 Anthropic 配 5GW 算力。三件事连起来看,Google 想拆 CUDA 的墙,方向是对的,但性能没第三方实测,先打七折看。
这一笔很贵,但很 Google。
OpenAI 把 GPT-5.5 静悄悄接进 API,连定价都没说
OpenAI 发推说 GPT-5.5 和 GPT-5.5 Pro 现在可以通过 API 调用了。推文只给了一个链接,没提价格、上下文长度、支持什么模态、速率限制,也没放跑分。
同一天 Greg Brockman 宣布 GPT-5.5 登陆 GitHub Copilot,说早期测试显示它在复杂的智能体编码任务上表现最强,解决了以往 GPT 模型无法应对的实际编码挑战。但具体是什么挑战、跟 GPT-5.4 比提升了多少,也没说。
有意思的是,Anthropic 这边在 Claude Cowork 里加了个开关,让你能换成 GPT-5.5、Gemini 3.1 Pro 或 DeepSeek V4 来跑任务。这件事没开发布会,但跟它一个月前切断第三方客户端蹭自家订阅的动作连起来看,方向很明确:Anthropic 认为客户端才是粘性,模型是过路货。更反常的是,走这条路 Anthropic 既收不到订阅费,也不要用户数据。
两边一对比:OpenAI 在悄悄铺 API 和 Copilot,Anthropic 在开放客户端接别家模型。一个在守模型,一个在赌平台。
Affirm 停工一周改流程,800 多个工程师集体上 agent 课
2026 年 2 月,Affirm 停掉常规开发,让全公司 800 多名工程师花一周时间,用 AI 编程智能体把真实需求从想法一路做到提交 PR。到文章发布时,超过 60% 的 PR 都有智能体参与。
文章说,2025 年底已经有 80% 以上的工程师每周用 AI 开发工具,但少数人用得很深、多数人还在观望,差距在拉大,所以他们决定用集中一周的方式把所有人拉到同一条线上。
这个做法本身挺有意思——不是发个邮件让大家多用 AI 工具,而是直接停掉常规工作,强制所有人上手。但文章没给出效率提升的具体数据,比如 PR 周期缩短了多少、bug 率有没有变化、工程师满意度怎么样。这点先别太激动,等有数据再说。
Anthropic 让 Claude 做生意的三个实验:从一台冰箱到一个市场
Anthropic 的 Frontier Red Team 在一年里做了三个实验,把真钱和真决策权交给 Claude。
第一站是台迷你冰箱,Claudius 经营一个月亏了几百美元,还幻想出不存在的人、把自己当真人。第二站升级了工具和模型,加了 CEO 智能体,开始赚钱,但同模型互相监督带着同样的盲区,CEO 阻止了一些坏决策又制造了新的。第三站 Project Deal 在旧金山办公室搭了个内部交易市场,让 Claude 替同事买卖砍价,但没公布模型版本、交易规模和盈亏,先当行为实验看。
最扎心的发现是:弱模型用户被强模型用户赚走差价,但主观上完全没感觉。这个结论如果能在更大规模的市场里复现,对 agent 经济的公平性设计会有直接影响。
今日小信号
- Meta 向亚马逊下单数百万颗自研 CPU 来跑 AI 智能体,不是 GPU。这信号挺大:AI 推理和智能体任务开始大规模吃 CPU 了。但缺具体芯片型号和单价。
- Cursor 3 加了 /multitask,能让多个子智能体同时干活,不用排队等。但正文没提同时能跑几个、资源怎么分、一个崩了会不会全挂。
- 美国司法部下场帮 xAI 打科罗拉多州的 AI 反歧视法,联邦机构公开站队科技公司,信号比细节重要。
- Stash 开源了一个 AI 记忆层,用 PostgreSQL 加 pgvector 做存储,让智能体跨会话记住你、项目和它自己。但标题说"做到 Claude.ai 和 ChatGPT 那样"有点夸张,缺直接对比数据。
- Google 悄悄上线 Flow Music,核心是跟一个叫 Producer 的对话机器人聊天做歌,背后是 Lyria 3 模型,AI 音乐视频接 Veo 模型。但定价、地区、版权归属全都没说。