AX 的 AI 日报 · 2026-05-29估值反转与专用模型

Anthropic 估值压过 OpenAI，但今天不止这一张牌

2026年5月29日

今天 AI 圈最大的数字是 9650 亿美元——Anthropic 刚完成一轮 650 亿美元融资，估值首次压过 OpenAI。但别光盯着这个，今天还有几件事值得看：OpenAI 放了个实时翻译语音模型，已经在智能眼镜上跑了；xAI 弃用 JAX 自研 C 语言训练框架，MFU 不到 10% 这个数字有点意思；小米开源了个能按你想法给视频配音效的模型。先来看 Anthropic 这一笔。

Anthropic 估值 9650 亿压过 OpenAI，但“超越”能撑多久不好说

这条数字很大，但我会先打个折。Anthropic 刚完成一轮 650 亿美元融资，投后估值达到 9650 亿美元，数字上确实压过了 OpenAI。这是两家公司估值排位第一次反转，但上游报道没提这轮的具体领投方、资金用途，也没给 OpenAI 当前的最新估值做对比。

所以这个“超越”能持续多久，取决于两件事：一是 OpenAI 下一轮融资什么时候关账、估值多少；二是 Anthropic 这 650 亿到底怎么花。如果大部分进了算力和人才价格战，而不是产品差异化，那估值排位就是个暂时的数字游戏。

有意思的是，今天另一条线是 Google 之前给 Anthropic 备了 400 亿美元的云合同。这两件事放在一起看，Anthropic 的资本结构越来越像“Google 深度绑定 + 独立融资”的双轨制。这种结构在云厂商竞争里不罕见，但在 AI 模型公司里，Anthropic 是第一个把这条路走通的。

至于这 9650 亿值不值，几个月后看产品落地速度就知道了。

OpenAI 放了个实时翻译语音模型，已经在智能眼镜上跑了

OpenAI 发了 gpt-realtime-translate，一个专门做语音翻译的模型。你对着它说 70 多种语言里的任意一种，它能直接用 13 种目标语言把语音播出来。OpenAI 自己说大模型虽然强，但特定任务还是得上专用模型——这话从他们嘴里说出来挺有意思，毕竟他们一直在推通用模型路线。

目前这个功能已经在智能眼镜上跑起来了，但缺了几个关键信息：延迟多少、准确率怎么样、具体是哪款眼镜。Greg Brockman 在 X 上发了演示，但没给技术细节。所以现在只能当 demo 看——方向对，但离“能日常用”还有距离。

这条跟今天 Anthropic 的融资放在一起看，能感觉到两家公司在产品节奏上的差异：OpenAI 在往端侧和专用场景渗透，Anthropic 在堆资本壁垒。两条路没有对错，但接下来一年谁会更快把产品送到用户手里，比估值数字更值得盯。

xAI 弃用 JAX 自研 C 框架，MFU 不到 10% 这个数字先别太激动

SemiAnalysis 爆料 xAI 已经不用 JAX 在 NVIDIA GPU 上训练模型了，转而用 Grok Build 写了一套 C 语言训练框架。报道说 xAI 的 JAX 方案模型浮点利用率（MFU）不到 10%，这个数字很低——意味着大部分算力都浪费在调度和通信上，没真正花在训练上。

但这里有个信息缺口：MFU 不到 10% 是在什么条件下测的？什么模型规模、什么并行策略、什么 batch size？这些都没给。MFU 这个指标对配置极其敏感，换个并行策略可能就差几倍。所以“不到 10%”这个数字本身说明问题，但不能直接推导出“JAX 不行”或“xAI 技术路线有问题”。

更值得看的是 xAI 的选择本身：在 NVIDIA GPU 上不用 NVIDIA 主推的 JAX，而是自研 C 框架。这说明他们对训练效率有极致要求，也说明 JAX 在大规模训练场景下的易用性和效率可能确实有短板。NVIDIA 的 JAX 团队过去两年几乎全员扑在支持 xAI 上，如果连这个级别的支持都没解决问题，那问题可能出在 JAX 的架构设计上。

同一天 xAI 还放出了 grok-build-0.1 的 API 公测版，输入每百万 token 1 美元，输出 2 美元。价格看着便宜，但没给跑分和延迟数据，便宜不便宜得自己跑一遍才知道。

小米开源 ControlFoley：给视频配音效，可以按你写的提示词来

小米大模型应用团队放出了一个叫 ControlFoley 的视频音效生成模型，权重和代码都开源了。它解决了一个挺实际的问题：以前模型只能看画面自动猜配什么声音，创作者没法干预。ControlFoley 支持三种用法——用文字描述想要的音效、用文字强行覆盖画面里原有的声音、或者上传一段参考音频让它模仿音色和风格，同时还能保证声音和画面动作对得上。

团队自己训了一个 benchmark，在 VGGSound-Test 上拿了开源 SOTA。代码和权重都给了，这点好评。不过视频配音效这个赛道目前还比较早期，实际创作中能不能稳定产出可用的音效，比 benchmark 分数更重要。

这条跟阶跃星辰今天发的 Step 3.7 Flash 放在一起看，能感觉到国内模型团队在往“可控性”和“专用场景”发力。Step 3.7 Flash 是个 198B 参数的 MoE 模型，约 11B 活跃参数，主打智能体工作流的效率，在 ClawEval-1.

1 和 SimpleVQA Search 上拿了第一。兼容 Claude Code、MCP 协议，能在 Mac Studio M4 Max 上本地跑。Apache 2.0 许可，这点对开发者友好。

Kog 把推理拉到 3000 token/s，但这是单用户场景

Kog 团队在 8 块 AMD MI300X 上跑出单用户 3000 token/s，8 块 NVIDIA H200 上 2100 token/s，而常规推理只有 100-300 token/s。他们把 LLM 解码当成内存流问题来解，用 monokernel 设计、重建同步机制、针对性内存映射，以及一个叫 Laneformer 的模型架构（延迟张量并行）来消除传统流程的阻塞点。

这个速度确实快，但有两个限制：一是单用户场景，多用户并发下性能未知；二是 Laneformer 是否通用、能否适配现有模型都没说。所以现在更像一个“推理加速可以做到什么程度”的技术演示，而不是一个能直接部署的方案。

OpenRouter 给智能体上了五道安全锁，预算控制是亮点

OpenRouter 上线了 Guardrails 功能，一套可配置的安全和治理工具，专门管那些跑在 API 上的智能体。核心功能有五项：预算控制（按日/周/月设限额，每人每 Key 独立计算，一个脚本跑冒了不会烧掉整月预算）、零数据留存、模型/供应商限制、提示注入防御（用 30 多条正则，延迟可忽略）、数据防泄漏。

亮点是预算按实体独立计算，比共享额度更精细。对跑生产 agent 的团队有用，但别指望它能防住高级越狱——官方自己也说这是可配置规则层，不涉及模型内部安全。缺少定价和上线时间，目前只能先看功能列表。

同一天 OpenRouter 还上线了 apply_patch 工具，模型可以生成 V4A 格式的 diff 来创建、修改或删除文件，服务器端会先校验 diff 语法。省得客户端自己折腾，但没提能拦住哪些错误、支持哪些模型。

今日小信号

Box 创始人 Aaron Levie 把“不懂员工在干嘛就拍板用 AI 换人”叫 AI 精神病。ClickUp 已经为此裁了 22% 的人。2026 年还没过半，科技行业裁员规模已接近 2025 年全年。老板亲自说“不取代人”的还有 Cognition 创始人 Scott Wu，他说 Devin 不是用来替代程序员的——要么是产品边界真清楚，要么是怕开发者抵制。
Gemini Omni 发了个草图转视频的演示：上传画圆视频，输入提示词“当我画完这个圆时，它变成了___”，模型就能生成视频。效果酷，但没参数、没开放时间、没定价，离上手还有距离。
ComfyUI 新版本接入了 OpenRouter，工作流里能直接选 20 多个模型，省去挨个配 API 的麻烦。对反复试模型做图、做视频的人挺方便，但没提具体支持哪些模型、有没有调用次数限制。
ChatGPT 给超过 5 条回复的对话加了目录，方便跳转。小改进，但长聊场景挺实用。
claude-design-card 这个开源工具能把文字/链接一键转成公众号首图、小红书卡片，支持 28 种布局和 10 种主题，省掉手动开 Figma 的步骤。开源免费，适合高频发内容的创作者。