AX 的 AI 日报 · 2026-05-08估值战与能力天花板

今天 AI 圈在拼估值，不是模型

2026年5月8日

今天 AI 圈最有意思的不在某个模型又能写代码了，是几张账本同时翻动：Anthropic 想靠一笔最高 500 亿美元的融资把估值推到近万亿，超过 OpenAI；DeepSeek 创始人自己掏了 30 亿，占这轮融资的四成。另一边，METR 测出 Claude Mythos 预览版能独立干 16 小时的活，但这是他们现有题目的天花板，再长就测不准了。先来看 Anthropic 这一笔。

Anthropic 想靠 500 亿冲到万亿，但条款还没谈拢

这一下我有点愣住了 — 今天 AI 投资圈最大的数字是 500 亿美元，但更值得看的不是金额，是结构。

Anthropic 正在筹备一轮新融资，目标金额最高 500 亿美元，融资前估值约 9000 亿美元，完成后整体估值将接近 1 万亿美元。这个数字会超过 OpenAI 今年 3 月融资后的 8520 亿美元估值。公司年化收入预计很快超过 450 亿美元，是去年底的 5 倍。投资方 Dragoneer、General Catalyst 等已表示兴趣，部分投资者意在为其年底可能的 IPO 提前建立持仓。

但条款还没最终敲定。正文没披露这笔钱具体怎么花 — 是进算力、进人才、还是进企业销售？也不知道触发条件是什么。Anthropic 上一轮融资时，Google 投了 20 亿美元，Amazon 投了 40 亿美元，都是云厂商深度绑定的逻辑。这次如果真到 500 亿，规模已经跳出了"云厂商战略投资"的框架，更像是在为独立上市铺路。

我会先打个折。年化收入 450 亿这个数字，如果是真的，确实惊人 — 但"预计很快超过"这种表述，通常意味着还没到。而且估值冲到近万亿，意味着市场在按"第二个 OpenAI"甚至"超越 OpenAI"来定价。Anthropic 的 Claude 确实强，但能不能撑住这个估值，得看企业客户愿不愿意长期买单。

这一笔很贵，但也很赌。

DeepSeek 创始人自己掏 30 亿，占这轮融资四成

DeepSeek 这轮最多要融 70 亿美元，估值 500 亿，是中国 AI 公司里单轮金额最高的一次。但最有意思的不是金额，是结构。

创始人 梁文锋 个人出了 30 亿，占这轮融资的 40%，融完后他手里还有公司 90% 的股份。DeepSeek 最早是从他自己的对冲基金里孵化出来的，这笔钱主要用来买算力、推 V4.1 新模型，以及做企业级产品，目标是让公司开始有正向收入，路线跟 OpenAI 类似。

这个结构说明两件事。第一，梁文锋对公司控制权抓得很紧 — 外部投资人话语权有限，这跟 Anthropic、OpenAI 那种多轮稀释创始股的模式完全不同。第二，他自己掏 30 亿，说明他对公司未来有足够信心，但也意味着如果 DeepSeek 没跑出来，损失最大的是他自己。

跟 Anthropic 那笔 500 亿的融资放在一起看，今天 AI 圈的估值逻辑正在分化：一边是"烧钱换规模、上市退出"的美式路径，一边是"创始人控股、慢慢造血"的中式路径。哪种更可持续，还得看两年后的收入数字。

METR 测出 Claude Mythos 能独立干 16 小时的活，但这已经是他们题目的天花板

METR 在 2026 年 3 月的一个短暂窗口里，对 Claude Mythos 的早期预览版做了风险评估。他们用一套任务测下来，模型有 50% 概率能独立完成的任务，所需时间至少是 16 小时，95% 置信区间在 8.5 到 55 小时之间。

这个数字已经碰到了 METR 现有任务能测出的上限 — 也就是说，再长他们就测不准了。缺少具体是什么任务、什么难度，但 16 小时这个量级意味着模型已经能处理跨天级别的复杂工作流，不是简单的"写个函数"或"回个邮件"。

有意思的地方在，这是预览版的数据。正式版的能力边界在哪，现在没人知道。但 METR 的测试框架本身已经不够用了 — 他们需要设计更长周期、更复杂的任务才能继续评估。这本身就是一个信号：模型的能力增长正在超出我们现有的测量工具。

AllenAI 让模型自己长出专家模块，跑任务只用 12.5% 的专家

AllenAI 放出了一个叫 EMO 的混合专家模型（MoE），总参数量 140 亿，每次推理只激活 10 亿参数。它最大的不同是训练时没按人类划好的学科（比如数学、代码）去分专家，而是让模型自己从 1 万亿 token 的数据里长出模块。

结果是，跑特定任务时你只用挑出 12.5% 的专家，性能就接近全模型水平；而同样架构、同样数据训出来的普通 MoE，挑出同样比例的专家后性能会明显下降。当所有 128 个专家共同使用时，它仍作为强大的通用模型。

这条我会先打个折 — 缺少具体任务和基准的对比数字，不知道"接近全模型水平"到底差多少。但思路本身挺有意思：让模型自己决定怎么分工，而不是人类预设"这个是数学专家、那个是代码专家"。如果能复现，对推理成本和部署灵活性都有好处。

Runway 公开儿童安全方案，但全年只提交了 516 份报告

Runway 在 2026 年 5 月 8 日发了一篇安全说明，专门讲他们怎么防止自家视频、图像生成工具被用来制作儿童性虐待内容（CSAM）。做法分三步：模型开发阶段，先用哈希匹配和专门的分类器清洗训练数据，不让模型学到涉及未成年人的色情内容，上线前还会做对抗测试找漏洞；产品部署后，所有用户上传的内容都要过已知 CSAM 哈希库和分类器扫描，一旦确认违规就向 NCMEC 报告；同时还实施 C2PA 来源信号追踪内容生成。

但 2025 年全年只向 NCMEC 提交了 516 份报告。这个数字对一家头部视频生成公司来说不算高 — 可能说明防护有效，也可能说明检测覆盖有限。Runway 没说每天处理多少生成请求，所以没法算检出率。

主动公开安全方案是好事，但缺少硬指标（检出率、误报率、漏报率）让这篇说明更像 PR 而不是安全审计。这点先别太激动。

OpenAI 公开 Codex 安全方案，但没给事故率

OpenAI 发了一篇技术博文，讲他们内部部署编程代理 Codex 时用的安全方案。核心是四件事：第一，用沙箱把代理的执行环境圈起来，低风险操作自动放行，高风险动作必须等人拍板；第二，网络访问不做全开放，只允许访问已知域名，陌生域名要审批；第三，身份认证强制走 ChatGPT 企业工作区，凭证存在系统钥匙串里；第四，代理的所有行为都通过 OpenTelemetry 做实时监控。

但没给事故率、误拦率这些硬指标。知道他们用了沙箱、做了审批、上了监控，但不知道这些措施实际效果怎么样 — 比如误拦了多少次正常请求、有没有漏过高风险操作。

这篇博文的价值在于，它给企业客户一个参考框架：如果你想在内部部署 AI 编程代理，至少要做这四件事。但效果得打个问号，等后续披露实际运营数据再判断。

今日小信号

阶跃星辰 StepAudio 2.5 TTS 在 Artificial Analysis 语音盲测中拿到 Elo 1187 分，全球第三，比 Eleven Labs v3 高 8 分。定价每百万字符 85 美元，生成速度 37.6 字符/秒。盲测排名有参考价值，但没披露训练数据规模和中文效果，实际落地还得看场景。
OpenRouter 给 Agent SDK 加了个"人工审核"工具：普通调用自动跑，高风险调用暂停等人批。相当于给模型干活时加了个"关键步骤需审批"的开关，但缺少审核延迟数据，如果是实时场景，等待时间可能影响流程。
Bugbot 从每席位每月 40 美元订阅制改成按用量计费，平均每次代码审查花 1 到 1.5 美元。对低频用户友好，但高强度模式下解决率没涨，这点先别太激动。
Ring-2.6-1T 是个万亿参数模型，主打"可调思考深度"，但缺少任何基准测试、价格或上下文窗口长度，实际效果和成本得等实测。
Grok 全平台所有套餐都加了连接器，能接外部数据或服务，但缺少具体支持哪些连接器、有没有权限控制，信息缺口太大，先别激动。