AX 的 AI 日报 · 2026-05-28万亿估值与落地暗流

Anthropic 估值万亿，但今天 AI 圈在拼落地

2026年5月28日

今天 AI 圈最大的数字是 9650 亿美元——Anthropic 又融了 650 亿，估值快摸到万亿。但更有意思的事不在融资新闻里：Opus 4.8 把浏览器操控做到 84%，Claude Code 能同时派上百个小代理干活，Cursor 说开发者代码量翻倍了。先来看 Anthropic 这一笔，再聊几个真正在改变工作流的产品更新。

Anthropic 估值 9650 亿，但年化收入 470 亿这个数得拆开看

这一下我有点愣住了——今天 AI 投资圈最大的数字是 9650 亿美元估值，但更值得看的不是金额，是结构。

Anthropic 完成了 650 亿美元 H 轮融资，由 Altimeter Capital 等机构领投，投后估值 9650 亿美元。公司说 Claude 的企业客户增长很快，年化收入（run-rate revenue）已经超过 470 亿美元。这笔钱主要用来继续做安全与可解释性研究、扩算力、铺产品。算力方面，他们跟亚马逊签了最多 5 吉瓦的新容量，跟 Google 也有类似安排。

但年化收入 470 亿这个数，我会先打个折。Run-rate revenue 是把最近一个月的收入乘以 12，不代表全年真能到这个数，更不代表利润。Anthropic 没披露实际合同负债结构、客户集中度、毛利率，所以 9650 亿估值对应的市销率到底是多少，算不出来。

比较骚的是，这轮融资的触发条件没有公开。上一轮 Anthropic 拿钱时，部分资金跟营收目标挂钩，这次是不是也有类似安排，正文没说。

这一笔很贵，但市场认了。

Opus 4.8 把浏览器操控做到 84%，还出了个三折快速模式

Anthropic 把 Opus 升级到了 4.8，价格和 4.7 一样。主要提升在写代码和让模型自己操作网页完成任务上：在 Online-Mind2Web 这个测浏览器操控能力的基准上拿了 84%，漏掉的代码错误比之前少了大约 75%。

新加了一个 2.5 倍速的快速模式，费用降到了之前的三分之一。早期用户反馈它更诚实，不会在证据不足时硬说搞定了，做复杂任务时判断力更可靠。

有意思的是，Anthropic 特别强调了"诚实度与对齐表现提升"。这不是 benchmark 能直接测的，但如果你真让模型去操作浏览器、写代码、调 API，"不乱编"比"答得快"重要得多。代码错误漏检率降 75% 这个数，如果能在实际项目里复现，省下的 debug 时间可能比模型费用本身更值钱。

不过缺少跟 GPT-5.5 在更多实际任务上的对比，目前只有 Online-Mind2Web 这一个榜。

Claude Code 能自己写脚本、派上百个小代理并行干活

Claude Code 推出了动态工作流，一次会话里可以自动生成脚本、派出几十到几百个小代理（subagent）并行处理任务，做完还会先自己验证结果再交给你。

这功能目前是研究预览版，Max、Team 和开通了权限的企业用户能在命令行、桌面版、VS Code、API 以及 Amazon Bedrock 和 Vertex AI 上用到。官方给的场景包括跨代码库找 bug、大规模迁移（比如把 Bun 从 Zig 移植到 Rust）这类需要多角度分析的任务。

思路很清晰：让一个主模型当"工头"，拆任务、派活、收结果、验证，而不是自己一行行写。但缺少出具体性能对比数据——并行跑几十个 subagent 会不会互相踩脚、token 消耗涨多少、实际省多少时间，这些都不清楚。

这点先别太激动，等有人跑完实际项目再判断。

Cursor 说开发者代码量翻倍了，但别急着归功 AI

Cursor 团队发了份开发者习惯报告，给了几个数：开发者每周写的代码从 3.6K 行涨到 8.6K 行，千行以上的大 PR 占比也高了。AI 智能体单次会话里调工具的次数多了约 30%，说明它在接更复杂的活。被采纳的 AI 代码 60 分钟后还在代码库里的比例从 76% 提到 81%，留存确实在变好。

但我会先打个折看这些数字。报告没给样本量、统计口径、是否排除了自动生成代码（比如 boilerplate、配置文件）。代码行数翻倍，可能只是因为 AI 生成了更多模板代码，不代表开发者的实际产出翻倍。

不过 60 分钟留存率从 76% 到 81% 这个趋势值得留意——说明 AI 生成的代码质量在变好，开发者改完一遍后愿意留着，而不是直接删掉重写。

特斯拉说 FSD 比人安全十倍，但训练它的员工自己都不敢坐

路透社扒了特斯拉的安全报告，发现"比人类安全 10 倍"这个说法站不住脚。特斯拉拿自己车气囊弹出的数据，去跟全美所有车辆（包括老车）的普通事故率比，11 位交通安全研究员看了直摇头，说这是误导性营销。

更扎心的是，9 名前数据标注员和 1 名前工程师爆料，FSD 连避让校车、紧急车辆这种基础操作都还搞不定。为了给投资人看的自动驾驶出租车演示，员工得提前加好地理围栏、反复跑图，确保演示路线不出岔子。

这条我不太买账。安全数据拿气囊弹出跟全美老车比，相当于拿新车跟二十年车龄的旧车比事故率，统计上就不对等。前员工爆料的内容如果属实，说明 FSD 离真正的无人驾驶还有不小距离。

苹果想把谷歌万亿参数 Gemini 塞进 iPhone，但纯本地跑通概率很低

苹果正在尝试用模型蒸馏技术，把谷歌那个参数规模大到数万亿的 Gemini 模型缩小，塞进 iPhone 里本地运行，用来驱动新版 Siri。

但 Ars Technica 的报道也泼了盆冷水：因为原始模型实在太大，完全在手机本地跑通的可能性很低，大概率还是得搭配云端处理。缺少具体的蒸馏方案、参数目标、延迟要求，也没给出发布时间表。

这个方向本身不意外——苹果一直想把 AI 放在本地跑，隐私牌好打。但万亿参数蒸馏到手机能跑的程度，技术上能不能做到、做到后能力还剩多少，都是问号。大概率最后是"本地跑小模型处理简单任务，复杂任务走云端"的混合方案。

今日小信号

DeepSeek 被曝融完 500 亿美元就冲科创板 IPO：消息来自一位参投基金经理，公司没确认，先打五折看。如果属实，这会是国内 AI 公司最大的一笔上市动作。
OpenRouter 拿了 1.13 亿美元 B 轮：领投的是 Alphabet 旗下的 CapitalG，跟投名单里还有英伟达、ServiceNow、MongoDB、Snowflake、Databricks 的风投部门。这帮企业级基础设施玩家集体下注，说明市场认了"多模型网关"这个位置。
Mistral 跟空客、宝马、ASML 合作搞工业 AI：但没给落地案例和效果数据，先当意向书看。同时他们还在巴黎郊区建 10 兆瓦推理数据中心，计划 2026 年第三季度启用。
阶跃星辰开源 Step 3.7 Flash：198B 参数 MoE，只激活 11B，跑起来省资源，上下文窗口 256K。在 ClawEval-1.1 和 SimpleVQA Search 上排第一，但含金量得看对手是谁。
Perplexity Computer 塞进了 Office 侧边栏：能在 Excel、Word、PowerPoint 和 Outlook 里直接使唤它，但没说是哪个版本、要不要加钱。