AX 的 AI 日报 · 2026-05-01法庭与桌面

OpenAI 把 Codex 接进 Mac，马斯克在法庭上承认抄作业

2026年5月1日

今天 AI 圈最有意思的两件事，一个在法庭上，一个在桌面上。马斯克出庭告 OpenAI，当庭承认自己的 xAI 拿 OpenAI 模型做知识蒸馏来训练 Grok——自己告别人闭源，自己却在抄作业。另一边，OpenAI 把 Codex 升级成能直接操控 Mac 的助手，跨三个 Adobe 软件跑完音频到出图流程，人只围观。先来看法庭上这场难看的互撕。

马斯克当庭承认 xAI 用 OpenAI 模型训练 Grok，告别人闭源自己抄作业

这条我今天看了好几遍确认没看错——马斯克在起诉 OpenAI 的案子里出庭作证，前后花了将近三天，法庭上翻出了邮件、短信和他自己发的推文，场面挺难看。但最劲爆的细节不是那些旧账，是他当庭承认自己的 AI 公司 xAI 会拿 OpenAI 的模型来训练自家聊天机器人 Grok。

直接看，就是知识蒸馏：用大模型的输出当教材去教小模型。马斯克的核心指控是 Sam Altman 把 OpenAI 从非营利转成营利公司，背叛了当初"为人类造福"的承诺，原话是"你不能偷一家慈善机构"。他要求法院把 Altman 和 Brockman 踢出管理层，并撤销 OpenAI 的营利性重组。马斯克说自己当年被忽悠了，给 OpenAI 捐了 3800 万美元，结果现在变成一家估值 8000 亿美元的公司。

但有意思的地方就在这：你告别人闭源、告别人背叛开源初心，自己却在用对方的模型输出来训练自己的商业模型。这个双标不是一般的刺眼。

"马斯克当庭承认自己的 AI 公司 xAI 会拿 OpenAI 的模型来训练自家聊天机器人 Grok。"

说实话，这个案子本身的法律逻辑我不太买账——非营利转营利的争议在硅谷不是第一次，但"用对手模型训练自己模型"这件事被当庭抖出来，对马斯克的公信力打击比任何判决都大。

OpenAI 把 Codex 升级成能直接操控 Mac 的助手，跨应用干活不用人插手

OpenAI 给 Codex 接入了 Slack、Google Workspace 和 Microsoft 365，重点不是帮你补代码，而是让它直接接管电脑操作。测试里 Mike Russell 让 Codex 在 Mac 上跨 Adobe Audition、Photoshop 和 Firefly 完成一套音频剪辑到出图的工作流，全程人只围观，大概 8 分钟左右跑完。

这条我会先打个折——正文被微信环境拦截了，具体细节和评分依据看不到。但方向本身值得说：Codex 从"帮你写代码"变成"帮你操作电脑"，这个跨越比模型能力提升更实际。GPT-5.5 发布一周后，OpenAI 说 API 收入增长速度比以往任何版本都快两倍以上，Codex 在不到七天内收入翻倍。企业对智能编码工具的需求在持续攀升，但 Codex 现在能做的事已经远超编码。

比较骚的是，OpenAI 还发了条推说现在可以用 ChatGPT 账户登录 OpenClaw，Sam Altman 的原话是"祝你捕龙虾愉快"。OpenClaw 是个什么产品我没查到更多信息，但用 ChatGPT 账户打通第三方工具这个动作，跟 Codex 跨应用操作的思路是一致的——OpenAI 在铺一个"用你的 ChatGPT 身份到处干活"的生态。

五角大楼签了七家 AI 公司处理机密信息，唯独把 Anthropic 踢出局

五角大楼一口气和七家公司签了涉密 AI 使用协议，包括 OpenAI、Google、微软、亚马逊、Nvidia、xAI 和 Reflection。Anthropic 被挡在门外，理由是"供应链风险"。

合同金额、具体要用哪些模型、怎么部署，正文全没写。但之前五角大楼处理机密信息时用过 Anthropic，这次突然不带它玩，原因没说透。"供应链风险"这个理由太模糊了——Anthropic 的模型跑在 AWS 和 Google Cloud 上，这两家都在合同名单里。如果供应链风险指的是云基础设施，那逻辑上说不通。

更可能的原因是 Anthropic 在安全和对齐上的公开立场跟军方需求有冲突，或者五角大楼想要的是更"听话"的模型。不管哪种情况，这都意味着 AI 公司在军事合同上的站队已经开始分化。

Claude Code 好用的秘密不在模型，在工程——AI 决策逻辑只占 1.6%

VILA-Lab 把 Claude Code v2.1.88 的 51.2 万行代码扒了一遍，发现真正跟 AI 决策逻辑相关的部分只占 **1.

6%**。剩下 98.4% 全是确定性的工程基础设施：权限控制、上下文管理、工具路由和错误恢复。

这个数字很说明问题。大家聊 AI 编程助手的时候，注意力几乎全在"模型有多强"上，但 Claude Code 好用的核心不是把提示词写得更长，而是给模型套上了一套好用的"缰绳"。权限控制决定模型能碰哪些文件、不能碰哪些；上下文管理决定模型在干活时记得住什么、忘掉什么；错误恢复决定模型搞砸了之后怎么收场。

这跟自动驾驶有点像——最难的从来不是"车能自己开"，而是"车开错了怎么不出事"。Claude Code 的工程团队显然在这上面花了大力气。

有人用黑盒 API 猜出了 GPT、Claude 的参数量，但估算区间宽到 0.3 到 3 倍

Bojie Li 在 arXiv 发了篇论文，用黑盒 API 调用去估算 27 家厂商 188 个模型的参数量。方法叫 IKP，靠 1400 道按生僻程度分了 7 档的题，先在 89 个已知参数量的开源模型上拟合，拟合度 R² 到 0.917。

争议点集中在合成数据干扰、MoE 架构影响，以及估算区间太宽——90% 置信区间在 0.3 倍到 3 倍之间。这个区间会带来什么？如果一个模型被估算为 1000 亿参数，实际可能在 300 亿到 3000 亿之间。这个精度对于"想知道 GPT-5.5 到底多大"的好奇心来说，基本等于没答案。

但方法本身有点意思。它不靠模型自己报参数（闭源模型也不会报），而是通过观察模型在不同难度题目上的表现来反推。争议的核心是：合成数据训练过的模型，表现模式跟传统模型不一样，IKP 的拟合可能被带偏。

腾讯把 1.8B 翻译模型压到 440MB，手机离线能跑 33 种语言

腾讯混元放出了一个叫 Hy-MT1.5-1.8B-1.25bit 的翻译模型，把原本 1.8B 参数的模型压到了 440MB，能在 骁龙 888、8GB 内存的安卓手机上离线跑。支持 33 种语言、1056 个翻译方向。

压缩的关键是一种叫 Sherry 1.25 比特量化的技术，做法是每 4 个权重里，3 个用 1 比特存，1 个直接置零。官方说翻译质量超谷歌，但缺少具体翻译质量对比数据和延迟，这点先别太激动。

440MB 这个大小确实可以在手机上离线跑，不需要联网、不需要 API 调用。对于经常出国、或者需要在没有网络的环境下做翻译的人来说，这个方案有实际价值。但"超谷歌"这个说法需要看具体在哪些语言对、哪些测试集上超的，目前没看到数据。

今日小信号

Replit 老板说不想卖公司，但收入从一年 280 万美元冲到年化十亿。Cursor 被传要以 600 亿美元卖给 SpaceX，Replit CEO Amjad Masad 在 StrictlyVC 活动上回应说不想卖，更想独立发展。但更值得看的是增速——从 2024 年全年的 280 万美元，猛增到现在年化十亿美元。这个增速比"不想卖"三个字有说服力得多。
苹果支持 App 误把 Claude.md 打包进正式版，不到一天就下架。文件暴露了 Juno AI 和人工客服的切换协议，客户端、AI 助手、人工客服的消息都在同一个流程里处理。但正文没解释这个文件怎么漏进正式版本的，问题核心出在发布审核环节。
Meta 收购做人形机器人基础模型的团队 ARI，收购金额没公布。团队会整体并入 Meta 的超级智能实验室，之前在做让机器人理解、预测和适应人类行为的模型。这笔交易最直接的信号是 Meta 要把机器人数据和模型从外部合作转向内部自研。
个人玩家用 16 台 DGX Spark 跑通 434GB 模型，统一内存方案落地了。Reddit 用户 Kurcide 搭的集群，8 个节点合起来成功加载了 GLM-5.1-NVFP4 模型，但缺少推理速度数据。
微软在 Word 里塞了个法律合同审查助手 Legal Agent，能按你定的规则逐条挑刺，还能处理文档里的修订痕迹。功能来自微软收购的 Robin AI 团队，但正文没提价格和什么时候能用上。