OpenAI 把 Codex 接进 Mac,马斯克在法庭上承认抄作业
今天 AI 圈最有意思的两件事,一个在法庭上,一个在桌面上。马斯克出庭告 OpenAI,当庭承认自己的 xAI 拿 OpenAI 模型做知识蒸馏来训练 Grok——自己告别人闭源,自己却在抄作业。另一边,OpenAI 把 Codex 升级成能直接操控 Mac 的助手,跨三个 Adobe 软件跑完音频到出图流程,人只围观。先来看法庭上这场难看的互撕。
马斯克当庭承认 xAI 用 OpenAI 模型训练 Grok,告别人闭源自己抄作业
这条我今天看了好几遍确认没看错——马斯克在起诉 OpenAI 的案子里出庭作证,前后花了将近三天,法庭上翻出了邮件、短信和他自己发的推文,场面挺难看。但最劲爆的细节不是那些旧账,是他当庭承认自己的 AI 公司 xAI 会拿 OpenAI 的模型来训练自家聊天机器人 Grok。
直接看,就是知识蒸馏:用大模型的输出当教材去教小模型。马斯克的核心指控是 Sam Altman 把 OpenAI 从非营利转成营利公司,背叛了当初"为人类造福"的承诺,原话是"你不能偷一家慈善机构"。他要求法院把 Altman 和 Brockman 踢出管理层,并撤销 OpenAI 的营利性重组。马斯克说自己当年被忽悠了,给 OpenAI 捐了 3800 万美元,结果现在变成一家估值 8000 亿美元的公司。
但有意思的地方就在这:你告别人闭源、告别人背叛开源初心,自己却在用对方的模型输出来训练自己的商业模型。这个双标不是一般的刺眼。
"马斯克当庭承认自己的 AI 公司 xAI 会拿 OpenAI 的模型来训练自家聊天机器人 Grok。"
说实话,这个案子本身的法律逻辑我不太买账——非营利转营利的争议在硅谷不是第一次,但"用对手模型训练自己模型"这件事被当庭抖出来,对马斯克的公信力打击比任何判决都大。
OpenAI 把 Codex 升级成能直接操控 Mac 的助手,跨应用干活不用人插手
OpenAI 给 Codex 接入了 Slack、Google Workspace 和 Microsoft 365,重点不是帮你补代码,而是让它直接接管电脑操作。测试里 Mike Russell 让 Codex 在 Mac 上跨 Adobe Audition、Photoshop 和 Firefly 完成一套音频剪辑到出图的工作流,全程人只围观,大概 8 分钟左右跑完。
这条我会先打个折——正文被微信环境拦截了,具体细节和评分依据看不到。但方向本身值得说:Codex 从"帮你写代码"变成"帮你操作电脑",这个跨越比模型能力提升更实际。GPT-5.5 发布一周后,OpenAI 说 API 收入增长速度比以往任何版本都快两倍以上,Codex 在不到七天内收入翻倍。企业对智能编码工具的需求在持续攀升,但 Codex 现在能做的事已经远超编码。
比较骚的是,OpenAI 还发了条推说现在可以用 ChatGPT 账户登录 OpenClaw,Sam Altman 的原话是"祝你捕龙虾愉快"。OpenClaw 是个什么产品我没查到更多信息,但用 ChatGPT 账户打通第三方工具这个动作,跟 Codex 跨应用操作的思路是一致的——OpenAI 在铺一个"用你的 ChatGPT 身份到处干活"的生态。
五角大楼签了七家 AI 公司处理机密信息,唯独把 Anthropic 踢出局
五角大楼一口气和七家公司签了涉密 AI 使用协议,包括 OpenAI、Google、微软、亚马逊、Nvidia、xAI 和 Reflection。Anthropic 被挡在门外,理由是"供应链风险"。
合同金额、具体要用哪些模型、怎么部署,正文全没写。但之前五角大楼处理机密信息时用过 Anthropic,这次突然不带它玩,原因没说透。"供应链风险"这个理由太模糊了——Anthropic 的模型跑在 AWS 和 Google Cloud 上,这两家都在合同名单里。如果供应链风险指的是云基础设施,那逻辑上说不通。
更可能的原因是 Anthropic 在安全和对齐上的公开立场跟军方需求有冲突,或者五角大楼想要的是更"听话"的模型。不管哪种情况,这都意味着 AI 公司在军事合同上的站队已经开始分化。
Claude Code 好用的秘密不在模型,在工程——AI 决策逻辑只占 1.6%
VILA-Lab 把 Claude Code v2.1.88 的 51.2 万行代码扒了一遍,发现真正跟 AI 决策逻辑相关的部分只占 **1.
6%**。剩下 98.4% 全是确定性的工程基础设施:权限控制、上下文管理、工具路由和错误恢复。
这个数字很说明问题。大家聊 AI 编程助手的时候,注意力几乎全在"模型有多强"上,但 Claude Code 好用的核心不是把提示词写得更长,而是给模型套上了一套好用的"缰绳"。权限控制决定模型能碰哪些文件、不能碰哪些;上下文管理决定模型在干活时记得住什么、忘掉什么;错误恢复决定模型搞砸了之后怎么收场。
这跟自动驾驶有点像——最难的从来不是"车能自己开",而是"车开错了怎么不出事"。Claude Code 的工程团队显然在这上面花了大力气。
有人用黑盒 API 猜出了 GPT、Claude 的参数量,但估算区间宽到 0.3 到 3 倍
Bojie Li 在 arXiv 发了篇论文,用黑盒 API 调用去估算 27 家厂商 188 个模型的参数量。方法叫 IKP,靠 1400 道按生僻程度分了 7 档的题,先在 89 个已知参数量的开源模型上拟合,拟合度 R² 到 0.917。
争议点集中在合成数据干扰、MoE 架构影响,以及估算区间太宽——90% 置信区间在 0.3 倍到 3 倍之间。这个区间会带来什么?如果一个模型被估算为 1000 亿参数,实际可能在 300 亿到 3000 亿之间。这个精度对于"想知道 GPT-5.5 到底多大"的好奇心来说,基本等于没答案。
但方法本身有点意思。它不靠模型自己报参数(闭源模型也不会报),而是通过观察模型在不同难度题目上的表现来反推。争议的核心是:合成数据训练过的模型,表现模式跟传统模型不一样,IKP 的拟合可能被带偏。
腾讯把 1.8B 翻译模型压到 440MB,手机离线能跑 33 种语言
腾讯混元放出了一个叫 Hy-MT1.5-1.8B-1.25bit 的翻译模型,把原本 1.8B 参数的模型压到了 440MB,能在 骁龙 888、8GB 内存的安卓手机上离线跑。支持 33 种语言、1056 个翻译方向。
压缩的关键是一种叫 Sherry 1.25 比特量化的技术,做法是每 4 个权重里,3 个用 1 比特存,1 个直接置零。官方说翻译质量超谷歌,但缺少具体翻译质量对比数据和延迟,这点先别太激动。
440MB 这个大小确实可以在手机上离线跑,不需要联网、不需要 API 调用。对于经常出国、或者需要在没有网络的环境下做翻译的人来说,这个方案有实际价值。但"超谷歌"这个说法需要看具体在哪些语言对、哪些测试集上超的,目前没看到数据。
今日小信号
-
Replit 老板说不想卖公司,但收入从一年 280 万美元冲到年化十亿。Cursor 被传要以 600 亿美元卖给 SpaceX,Replit CEO Amjad Masad 在 StrictlyVC 活动上回应说不想卖,更想独立发展。但更值得看的是增速——从 2024 年全年的 280 万美元,猛增到现在年化十亿美元。这个增速比"不想卖"三个字有说服力得多。
-
苹果支持 App 误把 Claude.md 打包进正式版,不到一天就下架。文件暴露了 Juno AI 和人工客服的切换协议,客户端、AI 助手、人工客服的消息都在同一个流程里处理。但正文没解释这个文件怎么漏进正式版本的,问题核心出在发布审核环节。
-
Meta 收购做人形机器人基础模型的团队 ARI,收购金额没公布。团队会整体并入 Meta 的超级智能实验室,之前在做让机器人理解、预测和适应人类行为的模型。这笔交易最直接的信号是 Meta 要把机器人数据和模型从外部合作转向内部自研。
-
个人玩家用 16 台 DGX Spark 跑通 434GB 模型,统一内存方案落地了。Reddit 用户 Kurcide 搭的集群,8 个节点合起来成功加载了 GLM-5.1-NVFP4 模型,但缺少推理速度数据。
-
微软在 Word 里塞了个法律合同审查助手 Legal Agent,能按你定的规则逐条挑刺,还能处理文档里的修订痕迹。功能来自微软收购的 Robin AI 团队,但正文没提价格和什么时候能用上。