ax@ax-radar:~/daily/2026-05-01 $ cat newsletter/daily/2026-05-01.md
41 srcsignal 72%cycle 04:32
AX 的 AI 日报 · 2026-05-01法庭与桌面

OpenAI 把 Codex 接进 Mac,马斯克在法庭上承认抄作业

今天 AI 圈最有意思的两件事,一个在法庭上,一个在桌面上。马斯克出庭告 OpenAI,当庭承认自己的 xAI 拿 OpenAI 模型做知识蒸馏来训练 Grok——自己告别人闭源,自己却在抄作业。另一边,OpenAI 把 Codex 升级成能直接操控 Mac 的助手,跨三个 Adobe 软件跑完音频到出图流程,人只围观。先来看法庭上这场难看的互撕。

马斯克当庭承认 xAI 用 OpenAI 模型训练 Grok,告别人闭源自己抄作业

这条我今天看了好几遍确认没看错——马斯克在起诉 OpenAI 的案子里出庭作证,前后花了将近三天,法庭上翻出了邮件、短信和他自己发的推文,场面挺难看。但最劲爆的细节不是那些旧账,是他当庭承认自己的 AI 公司 xAI 会拿 OpenAI 的模型来训练自家聊天机器人 Grok

直接看,就是知识蒸馏:用大模型的输出当教材去教小模型。马斯克的核心指控是 Sam Altman 把 OpenAI 从非营利转成营利公司,背叛了当初"为人类造福"的承诺,原话是"你不能偷一家慈善机构"。他要求法院把 Altman 和 Brockman 踢出管理层,并撤销 OpenAI 的营利性重组。马斯克说自己当年被忽悠了,给 OpenAI 捐了 3800 万美元,结果现在变成一家估值 8000 亿美元的公司。

但有意思的地方就在这:你告别人闭源、告别人背叛开源初心,自己却在用对方的模型输出来训练自己的商业模型。这个双标不是一般的刺眼。

"马斯克当庭承认自己的 AI 公司 xAI 会拿 OpenAI 的模型来训练自家聊天机器人 Grok。"

说实话,这个案子本身的法律逻辑我不太买账——非营利转营利的争议在硅谷不是第一次,但"用对手模型训练自己模型"这件事被当庭抖出来,对马斯克的公信力打击比任何判决都大。

OpenAI 把 Codex 升级成能直接操控 Mac 的助手,跨应用干活不用人插手

OpenAI 给 Codex 接入了 SlackGoogle WorkspaceMicrosoft 365,重点不是帮你补代码,而是让它直接接管电脑操作。测试里 Mike Russell 让 Codex 在 Mac 上跨 Adobe AuditionPhotoshopFirefly 完成一套音频剪辑到出图的工作流,全程人只围观,大概 8 分钟左右跑完。

这条我会先打个折——正文被微信环境拦截了,具体细节和评分依据看不到。但方向本身值得说:Codex 从"帮你写代码"变成"帮你操作电脑",这个跨越比模型能力提升更实际。GPT-5.5 发布一周后,OpenAI 说 API 收入增长速度比以往任何版本都快两倍以上,Codex 在不到七天内收入翻倍。企业对智能编码工具的需求在持续攀升,但 Codex 现在能做的事已经远超编码。

比较骚的是,OpenAI 还发了条推说现在可以用 ChatGPT 账户登录 OpenClaw,Sam Altman 的原话是"祝你捕龙虾愉快"。OpenClaw 是个什么产品我没查到更多信息,但用 ChatGPT 账户打通第三方工具这个动作,跟 Codex 跨应用操作的思路是一致的——OpenAI 在铺一个"用你的 ChatGPT 身份到处干活"的生态。

五角大楼签了七家 AI 公司处理机密信息,唯独把 Anthropic 踢出局

五角大楼一口气和七家公司签了涉密 AI 使用协议,包括 OpenAIGoogle微软亚马逊NvidiaxAIReflectionAnthropic 被挡在门外,理由是"供应链风险"。

合同金额、具体要用哪些模型、怎么部署,正文全没写。但之前五角大楼处理机密信息时用过 Anthropic,这次突然不带它玩,原因没说透。"供应链风险"这个理由太模糊了——Anthropic 的模型跑在 AWS 和 Google Cloud 上,这两家都在合同名单里。如果供应链风险指的是云基础设施,那逻辑上说不通。

更可能的原因是 Anthropic 在安全和对齐上的公开立场跟军方需求有冲突,或者五角大楼想要的是更"听话"的模型。不管哪种情况,这都意味着 AI 公司在军事合同上的站队已经开始分化。

Claude Code 好用的秘密不在模型,在工程——AI 决策逻辑只占 1.6%

VILA-LabClaude Code v2.1.8851.2 万行代码扒了一遍,发现真正跟 AI 决策逻辑相关的部分只占 **1.

6%**。剩下 98.4% 全是确定性的工程基础设施:权限控制、上下文管理、工具路由和错误恢复。

这个数字很说明问题。大家聊 AI 编程助手的时候,注意力几乎全在"模型有多强"上,但 Claude Code 好用的核心不是把提示词写得更长,而是给模型套上了一套好用的"缰绳"。权限控制决定模型能碰哪些文件、不能碰哪些;上下文管理决定模型在干活时记得住什么、忘掉什么;错误恢复决定模型搞砸了之后怎么收场。

这跟自动驾驶有点像——最难的从来不是"车能自己开",而是"车开错了怎么不出事"。Claude Code 的工程团队显然在这上面花了大力气。

有人用黑盒 API 猜出了 GPT、Claude 的参数量,但估算区间宽到 0.3 到 3 倍

Bojie Li 在 arXiv 发了篇论文,用黑盒 API 调用去估算 27 家厂商 188 个模型的参数量。方法叫 IKP,靠 1400 道按生僻程度分了 7 档的题,先在 89 个已知参数量的开源模型上拟合,拟合度 R² 到 0.917

争议点集中在合成数据干扰、MoE 架构影响,以及估算区间太宽——90% 置信区间在 0.3 倍到 3 倍之间。这个区间会带来什么?如果一个模型被估算为 1000 亿参数,实际可能在 300 亿到 3000 亿之间。这个精度对于"想知道 GPT-5.5 到底多大"的好奇心来说,基本等于没答案。

但方法本身有点意思。它不靠模型自己报参数(闭源模型也不会报),而是通过观察模型在不同难度题目上的表现来反推。争议的核心是:合成数据训练过的模型,表现模式跟传统模型不一样,IKP 的拟合可能被带偏。

腾讯把 1.8B 翻译模型压到 440MB,手机离线能跑 33 种语言

腾讯混元放出了一个叫 Hy-MT1.5-1.8B-1.25bit 的翻译模型,把原本 1.8B 参数的模型压到了 440MB,能在 骁龙 8888GB 内存的安卓手机上离线跑。支持 33 种语言1056 个翻译方向。

压缩的关键是一种叫 Sherry 1.25 比特量化的技术,做法是每 4 个权重里,3 个用 1 比特存,1 个直接置零。官方说翻译质量超谷歌,但缺少具体翻译质量对比数据和延迟,这点先别太激动。

440MB 这个大小确实可以在手机上离线跑,不需要联网、不需要 API 调用。对于经常出国、或者需要在没有网络的环境下做翻译的人来说,这个方案有实际价值。但"超谷歌"这个说法需要看具体在哪些语言对、哪些测试集上超的,目前没看到数据。

今日小信号

  • Replit 老板说不想卖公司,但收入从一年 280 万美元冲到年化十亿。Cursor 被传要以 600 亿美元卖给 SpaceX,Replit CEO Amjad Masad 在 StrictlyVC 活动上回应说不想卖,更想独立发展。但更值得看的是增速——从 2024 年全年的 280 万美元,猛增到现在年化十亿美元。这个增速比"不想卖"三个字有说服力得多。

  • 苹果支持 App 误把 Claude.md 打包进正式版,不到一天就下架。文件暴露了 Juno AI 和人工客服的切换协议,客户端、AI 助手、人工客服的消息都在同一个流程里处理。但正文没解释这个文件怎么漏进正式版本的,问题核心出在发布审核环节。

  • Meta 收购做人形机器人基础模型的团队 ARI,收购金额没公布。团队会整体并入 Meta 的超级智能实验室,之前在做让机器人理解、预测和适应人类行为的模型。这笔交易最直接的信号是 Meta 要把机器人数据和模型从外部合作转向内部自研。

  • 个人玩家用 16 台 DGX Spark 跑通 434GB 模型,统一内存方案落地了。Reddit 用户 Kurcide 搭的集群,8 个节点合起来成功加载了 GLM-5.1-NVFP4 模型,但缺少推理速度数据。

  • 微软在 Word 里塞了个法律合同审查助手 Legal Agent,能按你定的规则逐条挑刺,还能处理文档里的修订痕迹。功能来自微软收购的 Robin AI 团队,但正文没提价格和什么时候能用上。

更多

频道

后台