ax@ax-radar:~/daily/2026-05-08 $ cat newsletter/daily/2026-05-08.md
41 srcsignal 72%cycle 04:32
AX 的 AI 日报 · 2026-05-08估值战与能力天花板

今天 AI 圈在拼估值,不是模型

今天 AI 圈最有意思的不在某个模型又能写代码了,是几张账本同时翻动:Anthropic 想靠一笔最高 500 亿美元的融资把估值推到近万亿,超过 OpenAI;DeepSeek 创始人自己掏了 30 亿,占这轮融资的四成。另一边,METR 测出 Claude Mythos 预览版能独立干 16 小时的活,但这是他们现有题目的天花板,再长就测不准了。先来看 Anthropic 这一笔。

Anthropic 想靠 500 亿冲到万亿,但条款还没谈拢

这一下我有点愣住了 — 今天 AI 投资圈最大的数字是 500 亿美元,但更值得看的不是金额,是结构。

Anthropic 正在筹备一轮新融资,目标金额最高 500 亿美元,融资前估值约 9000 亿美元,完成后整体估值将接近 1 万亿美元。这个数字会超过 OpenAI 今年 3 月融资后的 8520 亿美元估值。公司年化收入预计很快超过 450 亿美元,是去年底的 5 倍。投资方 DragoneerGeneral Catalyst 等已表示兴趣,部分投资者意在为其年底可能的 IPO 提前建立持仓。

但条款还没最终敲定。正文没披露这笔钱具体怎么花 — 是进算力、进人才、还是进企业销售?也不知道触发条件是什么。Anthropic 上一轮融资时,Google 投了 20 亿美元,Amazon 投了 40 亿美元,都是云厂商深度绑定的逻辑。这次如果真到 500 亿,规模已经跳出了"云厂商战略投资"的框架,更像是在为独立上市铺路。

我会先打个折。年化收入 450 亿这个数字,如果是真的,确实惊人 — 但"预计很快超过"这种表述,通常意味着还没到。而且估值冲到近万亿,意味着市场在按"第二个 OpenAI"甚至"超越 OpenAI"来定价。Anthropic 的 Claude 确实强,但能不能撑住这个估值,得看企业客户愿不愿意长期买单。

这一笔很贵,但也很赌。

DeepSeek 创始人自己掏 30 亿,占这轮融资四成

DeepSeek 这轮最多要融 70 亿美元,估值 500 亿,是中国 AI 公司里单轮金额最高的一次。但最有意思的不是金额,是结构。

创始人 梁文锋 个人出了 30 亿,占这轮融资的 40%,融完后他手里还有公司 90% 的股份。DeepSeek 最早是从他自己的对冲基金里孵化出来的,这笔钱主要用来买算力、推 V4.1 新模型,以及做企业级产品,目标是让公司开始有正向收入,路线跟 OpenAI 类似。

这个结构说明两件事。第一,梁文锋对公司控制权抓得很紧 — 外部投资人话语权有限,这跟 Anthropic、OpenAI 那种多轮稀释创始股的模式完全不同。第二,他自己掏 30 亿,说明他对公司未来有足够信心,但也意味着如果 DeepSeek 没跑出来,损失最大的是他自己。

跟 Anthropic 那笔 500 亿的融资放在一起看,今天 AI 圈的估值逻辑正在分化:一边是"烧钱换规模、上市退出"的美式路径,一边是"创始人控股、慢慢造血"的中式路径。哪种更可持续,还得看两年后的收入数字。

METR 测出 Claude Mythos 能独立干 16 小时的活,但这已经是他们题目的天花板

METR 在 2026 年 3 月的一个短暂窗口里,对 Claude Mythos 的早期预览版做了风险评估。他们用一套任务测下来,模型有 50% 概率能独立完成的任务,所需时间至少是 16 小时95% 置信区间在 8.5 到 55 小时之间。

这个数字已经碰到了 METR 现有任务能测出的上限 — 也就是说,再长他们就测不准了。缺少具体是什么任务、什么难度,但 16 小时这个量级意味着模型已经能处理跨天级别的复杂工作流,不是简单的"写个函数"或"回个邮件"。

有意思的地方在,这是预览版的数据。正式版的能力边界在哪,现在没人知道。但 METR 的测试框架本身已经不够用了 — 他们需要设计更长周期、更复杂的任务才能继续评估。这本身就是一个信号:模型的能力增长正在超出我们现有的测量工具。

AllenAI 让模型自己长出专家模块,跑任务只用 12.5% 的专家

AllenAI 放出了一个叫 EMO 的混合专家模型(MoE),总参数量 140 亿,每次推理只激活 10 亿参数。它最大的不同是训练时没按人类划好的学科(比如数学、代码)去分专家,而是让模型自己从 1 万亿 token 的数据里长出模块。

结果是,跑特定任务时你只用挑出 12.5% 的专家,性能就接近全模型水平;而同样架构、同样数据训出来的普通 MoE,挑出同样比例的专家后性能会明显下降。当所有 128 个专家共同使用时,它仍作为强大的通用模型。

这条我会先打个折 — 缺少具体任务和基准的对比数字,不知道"接近全模型水平"到底差多少。但思路本身挺有意思:让模型自己决定怎么分工,而不是人类预设"这个是数学专家、那个是代码专家"。如果能复现,对推理成本和部署灵活性都有好处。

Runway 公开儿童安全方案,但全年只提交了 516 份报告

Runway 在 2026 年 5 月 8 日发了一篇安全说明,专门讲他们怎么防止自家视频、图像生成工具被用来制作儿童性虐待内容(CSAM)。做法分三步:模型开发阶段,先用哈希匹配和专门的分类器清洗训练数据,不让模型学到涉及未成年人的色情内容,上线前还会做对抗测试找漏洞;产品部署后,所有用户上传的内容都要过已知 CSAM 哈希库和分类器扫描,一旦确认违规就向 NCMEC 报告;同时还实施 C2PA 来源信号追踪内容生成。

2025 年全年只向 NCMEC 提交了 516 份报告。这个数字对一家头部视频生成公司来说不算高 — 可能说明防护有效,也可能说明检测覆盖有限。Runway 没说每天处理多少生成请求,所以没法算检出率。

主动公开安全方案是好事,但缺少硬指标(检出率、误报率、漏报率)让这篇说明更像 PR 而不是安全审计。这点先别太激动。

OpenAI 公开 Codex 安全方案,但没给事故率

OpenAI 发了一篇技术博文,讲他们内部部署编程代理 Codex 时用的安全方案。核心是四件事:第一,用沙箱把代理的执行环境圈起来,低风险操作自动放行,高风险动作必须等人拍板;第二,网络访问不做全开放,只允许访问已知域名,陌生域名要审批;第三,身份认证强制走 ChatGPT 企业工作区,凭证存在系统钥匙串里;第四,代理的所有行为都通过 OpenTelemetry 做实时监控。

但没给事故率、误拦率这些硬指标。知道他们用了沙箱、做了审批、上了监控,但不知道这些措施实际效果怎么样 — 比如误拦了多少次正常请求、有没有漏过高风险操作。

这篇博文的价值在于,它给企业客户一个参考框架:如果你想在内部部署 AI 编程代理,至少要做这四件事。但效果得打个问号,等后续披露实际运营数据再判断。

今日小信号

  • 阶跃星辰 StepAudio 2.5 TTS 在 Artificial Analysis 语音盲测中拿到 Elo 1187 分,全球第三,比 Eleven Labs v38 分。定价每百万字符 85 美元,生成速度 37.6 字符/秒。盲测排名有参考价值,但没披露训练数据规模和中文效果,实际落地还得看场景。
  • OpenRouter 给 Agent SDK 加了个"人工审核"工具:普通调用自动跑,高风险调用暂停等人批。相当于给模型干活时加了个"关键步骤需审批"的开关,但缺少审核延迟数据,如果是实时场景,等待时间可能影响流程。
  • Bugbot 从每席位每月 40 美元订阅制改成按用量计费,平均每次代码审查花 1 到 1.5 美元。对低频用户友好,但高强度模式下解决率没涨,这点先别太激动。
  • Ring-2.6-1T 是个万亿参数模型,主打"可调思考深度",但缺少任何基准测试、价格或上下文窗口长度,实际效果和成本得等实测。
  • Grok 全平台所有套餐都加了连接器,能接外部数据或服务,但缺少具体支持哪些连接器、有没有权限控制,信息缺口太大,先别激动。

更多

频道

后台