ax@ax-radar:~/daily/2026-05-29 $ cat newsletter/daily/2026-05-29.md
41 srcsignal 72%cycle 04:32
AX 的 AI 日报 · 2026-05-29估值反转与专用模型

Anthropic 估值压过 OpenAI,但今天不止这一张牌

今天 AI 圈最大的数字是 9650 亿美元——Anthropic 刚完成一轮 650 亿美元融资,估值首次压过 OpenAI。但别光盯着这个,今天还有几件事值得看:OpenAI 放了个实时翻译语音模型,已经在智能眼镜上跑了;xAI 弃用 JAX 自研 C 语言训练框架,MFU 不到 10% 这个数字有点意思;小米开源了个能按你想法给视频配音效的模型。先来看 Anthropic 这一笔。

Anthropic 估值 9650 亿压过 OpenAI,但“超越”能撑多久不好说

这条数字很大,但我会先打个折。Anthropic 刚完成一轮 650 亿美元融资,投后估值达到 9650 亿美元,数字上确实压过了 OpenAI。这是两家公司估值排位第一次反转,但上游报道没提这轮的具体领投方、资金用途,也没给 OpenAI 当前的最新估值做对比。

所以这个“超越”能持续多久,取决于两件事:一是 OpenAI 下一轮融资什么时候关账、估值多少;二是 Anthropic 这 650 亿到底怎么花。如果大部分进了算力和人才价格战,而不是产品差异化,那估值排位就是个暂时的数字游戏。

有意思的是,今天另一条线是 Google 之前给 Anthropic 备了 400 亿美元的云合同。这两件事放在一起看,Anthropic 的资本结构越来越像“Google 深度绑定 + 独立融资”的双轨制。这种结构在云厂商竞争里不罕见,但在 AI 模型公司里,Anthropic 是第一个把这条路走通的。

至于这 9650 亿值不值,几个月后看产品落地速度就知道了。

OpenAI 放了个实时翻译语音模型,已经在智能眼镜上跑了

OpenAI 发了 gpt-realtime-translate,一个专门做语音翻译的模型。你对着它说 70 多种语言里的任意一种,它能直接用 13 种目标语言把语音播出来。OpenAI 自己说大模型虽然强,但特定任务还是得上专用模型——这话从他们嘴里说出来挺有意思,毕竟他们一直在推通用模型路线。

目前这个功能已经在智能眼镜上跑起来了,但缺了几个关键信息:延迟多少、准确率怎么样、具体是哪款眼镜。Greg Brockman 在 X 上发了演示,但没给技术细节。所以现在只能当 demo 看——方向对,但离“能日常用”还有距离。

这条跟今天 Anthropic 的融资放在一起看,能感觉到两家公司在产品节奏上的差异:OpenAI 在往端侧和专用场景渗透,Anthropic 在堆资本壁垒。两条路没有对错,但接下来一年谁会更快把产品送到用户手里,比估值数字更值得盯。

xAI 弃用 JAX 自研 C 框架,MFU 不到 10% 这个数字先别太激动

SemiAnalysis 爆料 xAI 已经不用 JAX 在 NVIDIA GPU 上训练模型了,转而用 Grok Build 写了一套 C 语言训练框架。报道说 xAI 的 JAX 方案模型浮点利用率(MFU)不到 10%,这个数字很低——意味着大部分算力都浪费在调度和通信上,没真正花在训练上。

但这里有个信息缺口:MFU 不到 10% 是在什么条件下测的?什么模型规模、什么并行策略、什么 batch size?这些都没给。MFU 这个指标对配置极其敏感,换个并行策略可能就差几倍。所以“不到 10%”这个数字本身说明问题,但不能直接推导出“JAX 不行”或“xAI 技术路线有问题”。

更值得看的是 xAI 的选择本身:在 NVIDIA GPU 上不用 NVIDIA 主推的 JAX,而是自研 C 框架。这说明他们对训练效率有极致要求,也说明 JAX 在大规模训练场景下的易用性和效率可能确实有短板。NVIDIA 的 JAX 团队过去两年几乎全员扑在支持 xAI 上,如果连这个级别的支持都没解决问题,那问题可能出在 JAX 的架构设计上。

同一天 xAI 还放出了 grok-build-0.1 的 API 公测版,输入每百万 token 1 美元,输出 2 美元。价格看着便宜,但没给跑分和延迟数据,便宜不便宜得自己跑一遍才知道。

小米开源 ControlFoley:给视频配音效,可以按你写的提示词来

小米大模型应用团队放出了一个叫 ControlFoley 的视频音效生成模型,权重和代码都开源了。它解决了一个挺实际的问题:以前模型只能看画面自动猜配什么声音,创作者没法干预。ControlFoley 支持三种用法——用文字描述想要的音效、用文字强行覆盖画面里原有的声音、或者上传一段参考音频让它模仿音色和风格,同时还能保证声音和画面动作对得上。

团队自己训了一个 benchmark,在 VGGSound-Test 上拿了开源 SOTA。代码和权重都给了,这点好评。不过视频配音效这个赛道目前还比较早期,实际创作中能不能稳定产出可用的音效,比 benchmark 分数更重要。

这条跟阶跃星辰今天发的 Step 3.7 Flash 放在一起看,能感觉到国内模型团队在往“可控性”和“专用场景”发力。Step 3.7 Flash 是个 198B 参数的 MoE 模型,约 11B 活跃参数,主打智能体工作流的效率,在 ClawEval-1.

1 和 SimpleVQA Search 上拿了第一。兼容 Claude Code、MCP 协议,能在 Mac Studio M4 Max 上本地跑。Apache 2.0 许可,这点对开发者友好。

Kog 把推理拉到 3000 token/s,但这是单用户场景

Kog 团队在 8 块 AMD MI300X 上跑出单用户 3000 token/s8 块 NVIDIA H2002100 token/s,而常规推理只有 100-300 token/s。他们把 LLM 解码当成内存流问题来解,用 monokernel 设计、重建同步机制、针对性内存映射,以及一个叫 Laneformer 的模型架构(延迟张量并行)来消除传统流程的阻塞点。

这个速度确实快,但有两个限制:一是单用户场景,多用户并发下性能未知;二是 Laneformer 是否通用、能否适配现有模型都没说。所以现在更像一个“推理加速可以做到什么程度”的技术演示,而不是一个能直接部署的方案。

OpenRouter 给智能体上了五道安全锁,预算控制是亮点

OpenRouter 上线了 Guardrails 功能,一套可配置的安全和治理工具,专门管那些跑在 API 上的智能体。核心功能有五项:预算控制(按日/周/月设限额,每人每 Key 独立计算,一个脚本跑冒了不会烧掉整月预算)、零数据留存、模型/供应商限制、提示注入防御(用 30 多条正则,延迟可忽略)、数据防泄漏。

亮点是预算按实体独立计算,比共享额度更精细。对跑生产 agent 的团队有用,但别指望它能防住高级越狱——官方自己也说这是可配置规则层,不涉及模型内部安全。缺少定价和上线时间,目前只能先看功能列表。

同一天 OpenRouter 还上线了 apply_patch 工具,模型可以生成 V4A 格式的 diff 来创建、修改或删除文件,服务器端会先校验 diff 语法。省得客户端自己折腾,但没提能拦住哪些错误、支持哪些模型。

今日小信号

  • Box 创始人 Aaron Levie 把“不懂员工在干嘛就拍板用 AI 换人”叫 AI 精神病。ClickUp 已经为此裁了 22% 的人。2026 年还没过半,科技行业裁员规模已接近 2025 年全年。老板亲自说“不取代人”的还有 Cognition 创始人 Scott Wu,他说 Devin 不是用来替代程序员的——要么是产品边界真清楚,要么是怕开发者抵制。
  • Gemini Omni 发了个草图转视频的演示:上传画圆视频,输入提示词“当我画完这个圆时,它变成了___”,模型就能生成视频。效果酷,但没参数、没开放时间、没定价,离上手还有距离。
  • ComfyUI 新版本接入了 OpenRouter,工作流里能直接选 20 多个模型,省去挨个配 API 的麻烦。对反复试模型做图、做视频的人挺方便,但没提具体支持哪些模型、有没有调用次数限制。
  • ChatGPT 给超过 5 条回复的对话加了目录,方便跳转。小改进,但长聊场景挺实用。
  • claude-design-card 这个开源工具能把文字/链接一键转成公众号首图、小红书卡片,支持 28 种布局和 10 种主题,省掉手动开 Figma 的步骤。开源免费,适合高频发内容的创作者。

更多

频道

后台