今天 AI 圈在拼合同,不是模型
今天 AI 圈最有意思的不在某个模型又能写代码了,是几张账本同时翻动:SpaceX 要花 600 亿美元买 Cursor、亚马逊又给 Anthropic 投了 50 亿但钱得花回 AWS、OpenAI 掏 15 亿跟私募搞合资公司。模型这边也有动静,OpenAI 发了能直接出幻灯片的新图像模型,苹果把 Transformer 蒸馏成 Mamba 把推理成本砍到线性。先来看 SpaceX 这一笔。
SpaceX 六百亿买 Cursor,但交易细节全是空白
这条我会先打个折。SpaceX 官宣要花 600 亿美元收购 Cursor,但正文只给了几条新闻链接,没展开说具体是现金还是换股、什么时候签的、要过哪些监管审批,也没提 Cursor 团队后续怎么安排。
有意思的是,Cursor 自己的博客同一天发了另一条消息:他们跟 SpaceX 合作,要用 xAI 的 Colossus 基础设施来加速模型训练。Cursor 在不到半年内快速迭代了 Composer 系列模型,Composer 1.5 把强化学习规模扩大 20 倍以上,Composer 2 通过持续预训练以极低成本达到了前沿性能。这次合作的核心是突破算力瓶颈。
两条消息放在一起看,收购可能是真的,但更可能是一揽子合作的一部分——SpaceX 给算力,Cursor 给代码能力,双方深度绑定。600 亿这个数字先别太激动,等交易结构出来再说。
亚马逊又给 Anthropic 投了 50 亿,但钱得花回 AWS
这笔账算得挺精的。亚马逊又给 Anthropic 投了 50 亿美元,累计投资达到 130 亿。但 Anthropic 承诺未来 10 年在 AWS 上花超过 1000 亿美元,换取最多 5 吉瓦的算力来训练和运行 Claude。
直接看,这是个左手倒右手的买卖:亚马逊把钱投出去,Anthropic 再把这笔钱花回亚马逊的云服务上。协议里还锁定了亚马逊作为 Anthropic 的“主要云提供商”,训练和推理都得跑在 AWS 上。
这种“云厂商深度绑定大模型公司”的合同之前已经出现过两次——微软和 OpenAI、Google 和 Anthropic 自己。但这次亚马逊把金额拉到了千亿级别,而且锁了 10 年。这不像投资,更像 1990 年代末电信公司签长途光纤容量合同。
OpenAI 掏 15 亿跟私募搞合资,想把模型塞进传统企业
OpenAI 打算掏钱当 LP,和私募股权机构成立一家合资公司,专门把 AI 塞进 PE 投的那些公司里干活。金额上限是 15 亿美元。
这篇报道正文被付费墙挡住了,没披露合作方是谁、交易结构怎么搭、时间表怎么排。但方向很清楚:这跟发新模型没关系,是 OpenAI 在赌企业端落地——通过私募的钱和项目渠道,把自己的模型铺进更多传统行业。
如果这事能跑通,逻辑是:PE 机构投了几百家公司,OpenAI 通过合资公司把模型塞进去,帮这些公司降本增效,PE 退出时估值更高,OpenAI 分一杯羹。但 15 亿对 OpenAI 来说不算大钱,更像试水。
OpenAI 发了新图像模型,能直接出幻灯片和 UI 稿
OpenAI 正式推出了 GPT-Image-2,在 ChatGPT、Codex 和 API 里都能用。这次更新最明显的变化是文字渲染、排版和编辑能力大幅提升,能直接生成幻灯片、信息图、UI 稿和二维码,还支持多语言。
模型分“思考”和“不思考”两个版本,思考版可以自己上网搜资料、生成多个候选图并自我检查。在 Arena 的图像排行榜上,GPT-Image-2 拿了第一。
但 Arena 高分不代表你实际用起来不翻车。文字渲染一直是图像模型的软肋,这次 OpenAI 说修好了,但具体到中文排版、复杂表格、多页幻灯片这些场景,还得自己上手测。价格、生成速度和分辨率限制也还没完全公开。
苹果把 Transformer 蒸馏成 Mamba,推理成本从平方级砍到线性
苹果发了一篇技术文章,讲怎么把一个训好的 Transformer 模型(Pythia-1B)蒸馏成 Mamba 架构,让推理时的计算量从平方级降到线性。
他们没直接硬蒸,因为直接蒸效果会崩(困惑度直接飙到 100 以上)。实际分了两步:先把 Transformer 的注意力换成一种叫 Hedgehog 的线性注意力,让模型适应线性计算;再把这个中间模型映射到 Mamba 架构。最终模型的困惑度只比原版 Transformer 高了不到 1 个点,但推理速度快了很多。
这条的技术意义比产品意义大。Mamba 架构一直被认为是 Transformer 的潜在替代品,但训练不稳定、效果不如 Transformer。苹果这次证明了可以“先训 Transformer,再转 Mamba”,绕开了直接训 Mamba 的坑。如果这个方法能 scale 到更大模型,推理成本会大幅下降。
Anthropic 还没发布的强模型 Mythos 被外人摸到了
Bloomberg 拿到内部文件和知情人士消息,说有一小撮未授权用户摸到了 Anthropic 还没正式发布的 Mythos 模型。Anthropic 内部认为这模型能力强到能搞出危险的网络攻击,所以这事不是普通的产品泄露,是访问控制出了问题。
FT 也报了同一条,但正文被付费墙挡住了。两篇报道都没写到底多少人、通过什么路径、在什么时间段访问的,也没说 Anthropic 后续怎么堵的窟窿。
Anthropic 之前就因为担心 Mythos 的“黑客能力”而限制了它的发布。现在模型被未授权访问,说明内部安全控制没跟上模型能力增长。这对一家把安全当核心卖点的公司来说,挺尴尬的。
今日小信号
- 苹果换帅:硬件负责人 John Ternus 将在 9 月接替 Tim Cook 出任 CEO,Cook 转任执行董事长。信号很明确:产品优先。标题提了 AI 和中国市场,但缺少具体计划。
- 谷歌组队搞 AI 编程:前 DeepMind 研究员 Sebastian Borgeaud 带队,谢尔盖·布林直接参与。谷歌自己说约 50% 的代码已由编程 agent 生成,但 Anthropic 那边放话 Claude 能写 85%。压力不小。
- 蚂蚁的“大象”模型:蚂蚁 Inclusion AI 做了个 100B 参数模型,上下文窗口 256K,跑分快、延迟低,但缺少训练细节和定价。
- GitHub 假星重灾区是 AI 项目:卡内基梅隆大学扒出约 600 万颗疑似假星,AI 项目是重灾区,5 毛一颗星就能买,冲榜效果撑不过两个月。
- Claude 出了设计功能:能问完你需求直接出原型图,但 20 美元套餐一周只能跑两三次大图,别当主力工具用。