今天 AI 圈在拼落地,不是拼参数
今天 AI 圈最有意思的不是某个模型又刷榜了,是几件事同时指向同一个方向:模型能力开始往具体场景里沉。OpenAI 给 GPT-5.5 加了道身份门禁,安全研究员验明正身才能解锁漏洞代码;Claude 直接住进 Office 四件套,跨应用上下文打通;Anthropic 把测谎工具捐给独立机构,评测结果不用再看 AI 公司脸色。先来看 OpenAI 这道门禁怎么设的。
OpenAI 给 GPT-5.5 加了道身份门禁,普通用户问漏洞直接拒绝
这条我会先打个折——OpenAI 把 GPT-5.5 和专门的安全版 GPT-5.5-Cyber 放进了一个叫"受信访问"的框架里,核心逻辑很简单:先验明正身,再给权限。普通版 GPT-5.
5 遇到漏洞利用请求会直接拒绝;通过身份审核的安全研究员拿到受信通道后,模型才会帮忙生成概念验证代码、做逆向分析或写检测规则。GPT-5.5-Cyber 权限更高,能跑渗透测试和红队演练。
有意思的地方不在技术本身,在于这个动作背后的信号。OpenAI 在主动画一条线:高危能力不是不给你用,但得先证明你是谁。这跟之前"模型能力越强越要锁紧"的思路一脉相承,但这次是把锁的钥匙交出去了——不是不让你进门,是进门得登记。
同时,OpenAI 在 API 里发了三款新语音模型。第一款 GPT‑Realtime‑2 带 GPT‑5 级推理能力,能同时调用多个工具、被打断后自己圆回来,对话中会先说"我查一下"这类铺垫语。第二款 GPT‑Realtime‑Translate 做实时翻译,支持 70 多种输入语言转成 13 种输出语言,语速和自然度都有提升。第三款 GPT‑Realtime‑Transcribe 专攻语音转文字。但价格、延迟数据和速率限制都还没说,现在只能看到调用方式,看不到成本边界。
"我们正在扩大网络安全领域的可信访问计划,帮助经过验证的防御者加速漏洞研究。"
这两件事放在一起看,OpenAI 今天的策略很清楚:能力继续往前推,但分发方式在分层。高危能力走身份审核,语音能力走 API 铺量。至于语音模型的实际成本和延迟,等价格表出来再说。
Claude 直接住进 Office 四件套,跨应用上下文打通
这条值得认真看。Claude 正式接入了四个微软办公软件:Excel、PowerPoint、Word 和 Outlook。其中前三款已经全面开放,Outlook 还在公开测试阶段。
真正有意思的不是"AI 能写 PPT 了"——这事早就不新鲜。有意思的是跨应用上下文打通:你可以在 Excel 里让 Claude 分析数据,再让它把结论写成 Word 报告,最后用 Outlook 发出去,整个过程上下文是连贯的。比如在 Outlook 里分类邮件并起草回复,在 Excel 里调整数据后,PowerPoint 图表和 Word 文档会自动同步更新。企业管理员可以通过微软管理中心统一部署,还能用 OpenTelemetry 做全流程监控。
这个动作的信号很明确:Anthropic 在抢企业办公场景的入口。Microsoft 365 Copilot 用户也可以在 Excel 和 PowerPoint 里直接调用 Claude,说明微软自己也没把 Copilot 当成唯一选项。对企业来说,Claude 进 Office 意味着多了一个选择,但对 Anthropic 来说,这是把模型能力直接嵌进全球最大的办公软件生态里。
Outlook 还在公测,别急着把工作流全押上去。但跨应用上下文打通这个方向,比单纯"AI 帮你写文档"有价值得多。
Anthropic 把测谎工具捐给独立机构,评测结果不用再看 AI 公司脸色
Anthropic 把自家用来测模型有没有撒谎、拍马屁、配合危险请求的开源工具箱 Petri,转交给了非营利评测机构 Meridian Labs。Petri 从 Claude Sonnet 4.5 起就参与内部对齐检查,英国 AI 安全研究所也用它来评估模型会不会破坏 AI 研究。
这次同步升级到了 3.0 版本,主要改进包括:架构调整让审计模型和目标模型可以单独调整;通过"Dish"附加组件使用真实系统提示和部署环境,增强测试真实性;与另一开源工具 Bloom 集成,实现更深入的行为评估。
这个动作比那四个研究领域更值得看。Anthropic 把内部数据变成治理筹码——工具捐出去,评测结果就更中立、更让人信服。以后 AI 公司说自己模型安全,第三方可以拿 Petri 独立验一遍,不用再听 AI 公司自说自话。
"为确保独立性与公信力,Petri 的开发已移交非营利组织 Meridian Labs。"
这是安全评测去中心化的一步。对行业来说,独立评测工具越多,安全声称的含金量越高。
庭审文件实锤:董事会赶走 Altman 的核心动机是不想让 AGI 落在他手里
马斯克起诉 OpenAI 的庭审文件公开了前 CTO Mira Murati 的证词和 2023 年 11 月政变当晚的内部短信。短信记录显示,董事会在解雇 Altman 后态度反转,已经选定前 Twitch CEO 当接班人;Altman 当时还提过让微软收购 OpenAI 来达成董事会想要的治理目标。
被问到为什么非要赶走 Altman 时,Murati 的回复很直接:
"他们只是不想让 AGI 掌控在你手上。"
这句话把之前所有"治理分歧"的模糊说法都捅破了。董事会担心的不是商业方向或盈利模式,就是 AGI 的控制权。这些证据正支撑马斯克主张 OpenAI 背叛非营利初衷的诉讼,其要求推翻营利模式并索赔 1800 亿美元。
说实话,这个证词比之前任何公开信息都更接近真相。之前外界猜来猜去,现在终于有一个直接参与者在法庭上说了实话。至于这能不能帮马斯克打赢官司,那是另一回事——但至少我们知道了那晚到底发生了什么。
全国首例 AI 短剧侵权案宣判,法院认的是人的原创设定
广州黄埔区法院判了一个案子,有人把某平台用户用 AI 工具生成的短剧盗录下来,打包 1700 多部在二手平台卖 66.66 元,没拿到任何授权。法院认定这些 AI 短剧不是简单点一下"一键生成",而是创作者输入了原创剧本、人物设定和镜头要求,体现了个人构思,属于受著作权法保护的作品。最终被告人被判侵犯著作权罪,有期徒刑八个月、缓刑一年两个月,罚金六千元。
这个判例给 AI 内容的版权定了调:AI 生成的内容能不能受保护,关键看人有没有投入原创性表达。不是"AI 画的就不算作品",也不是"只要用了 AI 就算创作",而是看人到底做了什么。涉案公司平台已累计生成超 7000 部 AI 短剧,单价数元至十几元,热门剧销量可达上千份。
对创作者来说,这个判例是利好——你的原创剧本和设定是有法律保护的。对那些想靠盗录 AI 内容赚快钱的人来说,这是个明确的警告。
中国 AI 实验室内部笔记:学生军团、快跟文化和被压缩的算力
这条不是新闻,是一篇走访笔记,但信息密度很高。作者走访了国内几家头部 AI 实验室,发现一个明显特点:核心贡献者里学生占比很高,他们没包袱、上手快,愿意做那些不炫但能让模型变好的脏活累活。这种文化让中国团队在追赶大模型、做智能体工作流时效率很高,但也被一些技术负责人认为会抑制从 0 到 1 的原创研究。
文章提到,国内实验室在百亿级基础模型和十亿级垂直模型上都有布局,部分中文任务表现已超过 GPT-4。但算力被压缩是普遍问题,团队不得不在有限资源下做更多优化。这种"快跟文化"在追赶阶段是优势,但到了需要原创突破的阶段,可能会变成瓶颈。
说实话,这篇笔记的价值不在结论,在于它提供了一个内部视角——不是 PR 稿里那种"我们很强",而是真实的工作状态和结构性矛盾。值得留意的是,这种文化会不会在下一阶段成为限制因素。
今日小信号
- 万亿参数模型 Ling-2.6-1T 上架 OpenRouter,自称推理成本砍掉 75%,在 AIME26 和 SWE-bench Verified 上成绩顶尖。但缺少价格、上下文长度和完整跑分,先别太激动。
- 商汤 SenseNova-U1 开源 8 步蒸馏 LoRA,扩散模型从 100 步压到 8 步,GPU 推理从 23 秒降到 2 秒,快了 11 倍。配套给了 ComfyUI 工作流,但缺少画质对比和显卡型号,先打七折看。
- Redis 作者 antirez 给 DeepSeek 4 Flash 写了个 Mac 本地推理引擎,直接调 Metal Performance Shaders 加速,但没给跑分,快多少不知道。
- OpenAI 发布官方命令行工具 openai-cli,Apache 2.0 协议,终端敲命令就能调 API,支持 Responses API 把网页搜索、代码解释器串起来。但别急着激动,先看它能不能稳定跑生产任务。
- GitHub 官方下场教你怎么审 AI 写的代码,重点不是找工具,而是改人工审查习惯:别被大段生成代码唬住,先看改了什么,再查逻辑坑和安全漏洞,合并前把技术债清掉。
- 带摄像头的 AirPods 进入 DVT 阶段,左右耳机各塞一颗低分辨率摄像头,给 Siri 当眼睛用,上传数据时会有灯亮。最快 9 月发布,但别当它是偷拍神器。