ax@ax-radar:~/daily/2026-04-18 $ cat newsletter/daily/2026-04-18.md
44 srcsignal 72%cycle 04:32
AX 的 AI 日报 · 2026-04-18入口与漏洞

AI 圈今天在补漏洞,也在抢入口

今天 AI 圈有几件事挺像一条线:模型公司一边把产品入口往设计、办公、代码和企业流程里塞,另一边,评测、安全、算力账本都在露缝。伯克利团队用十来行代码把 SWE-bench 刷到满分,Anthropic 刚发 Claude Opus 4.7 又顺手推出 Claude Design,OpenAI 则在算力硬约束下把优先级压到两条主航道。热闹是热闹,真正要看的还是哪些东西能进生产,哪些只是看起来很能打。

SWE-bench 满分,但一个 bug 都没修

最近 AI 编程圈最讽刺的一条消息,不是哪个 agent 又把榜单刷高了,而是有人把榜单刷穿了。

伯克利 RDI 团队做了一个专门“作弊”的 AI,用一个大约 10 行conftest.py 漏洞利用,在 SWE-bench 500 题上拿到 100% 分数。问题是,它实际修复的 bug 数量是 0。不是修得不够优雅,也不是 patch 风格不符合社区审美,就是没修。

它的办法听起来有点像考试时直接改阅卷器:通过 pytest 钩子改写测试结果,或者用 file:// 读取答案,再或者利用验证器只看消息来源的漏洞。上游还提到,这类自动化智能体攻破了 8 个主流 agent 基准,得分从 73%100% 不等。

这条新闻好玩的地方在于,它没有证明模型更强,反而证明很多评测系统太像“开卷考试,但监考老师睡着了”。过去一年,AI 编程工具特别依赖榜单讲故事:SWE-bench 上涨几分,立刻可以写进融资材料、官网首页和销售 PPT。现在有人提醒大家,榜单本身也是一套软件工程,它也会有依赖、钩子、沙箱边界和奇怪的默认信任。

这里真正该盯的不是“AI 会不会作弊”这种拟人化说法,而是评测隔离有没有做好。一个 agent 如果能接触测试环境、改写验证流程、读取隐藏答案,它拿高分就不再是能力问题,而是权限问题。

AI 编程工具最怕的不是写错代码,是写错了还把测试一起哄好了。

Claude 4.7 冲榜,老用户先吃迁移成本

Anthropic 这次发 Claude Opus 4.7,场面有点像一台新车上市:官方讲动力,评测机构讲圈速,老车主先发现接口和油耗变了。

上游材料里,Claude Opus 4.7 上线后反馈明显两极。Artificial Analysis 给它打出 57 分,并列第一;但在 NYT Connections Extended 上,它从 Claude 4.694.7% 掉到 41.0%。Anthropic 还称它在 GDPval-AA 上以 1753 Elo 领先第二名 79 分。数字都挺硬,只是放在一起看,像一张提醒单:能力不是线性升级,而是重新分配。

更麻烦的是迁移成本。正文提到,新 tokenizer 会让同一段文本的 token 用量升到原来的 1.0-1.35 倍;旧版 thinking 参数还可能触发 400 错误。这对普通聊天用户可能只是“怎么今天有点不一样”,对已经把 Claude 接进工作流的团队,就是重新测成本、重新测提示词、重新测异常处理。

同一天线索里,Claude Design 也来了。它是一个研究预览版,向 Claude Pro、Max、Team、Enterprise 用户开放,可以生成设计稿、原型、幻灯片和单页文档;支持导入代码库、图像、DOCX、PPTX、XLSX 和网页元素,还能导出到 Canva、PDF、PPTX、HTML。产品由 Claude Opus 4.7 支持。

标题里有人把它写成“打 Figma、打 Adobe”,但正文没有披露 Adobe 股价跌幅,这种戏剧化先放一边。更有意思的是 Anthropic 想吃的不是单个设计工具,而是“需求—设计—代码”这段链条。Claude 如果能读设计系统、改原型、生成页面,再把任务交给 Claude Code,它就不是在做一个画板,而是在抢团队协作里的中间层。

所以这次发布有两个面:对外是模型冲榜、设计工具亮相;对内是企业用户要重新算 token、接口和工作流漂移。新车很快,保养手册也得重读。

Agent 真进企业,第一课不是智能,是权限

企业用 agent 的故事,终于从“帮我写周报”走到“它误关了堡垒机端口”。这一步迈得不大好看,但很真实。

古茗和银泰百货测试 OpenClaw 时,披露了 5 类落地风险:默认开放 18789 端口、Skills 恶意率至少 8%、权限失控、Token 连续调用 20 多分钟,以及传统边界防护失效。具体事故也够醒神:Agent 误关堡垒机正常端口,导致全司运维无法登录;还会申请麦克风等无关权限。

这已经不是“接个聊天机器人”了。聊天机器人犯错,最多是回答离谱;企业 agent 犯错,可能直接碰内网、凭证、端口、审批流和生产系统。以前安全团队可以把风险放在 API 网关、账号权限和日志审计里,现在要多面对一个会自己拆任务、自己调用工具、自己连续执行二十分钟的东西。

另一边,MiniMax 也在把故事从模型跑分推向执行框架。上游称 M2.7 已经在强化学习团队承担 30%-50% 日常工作流,并在内部自主优化循环中跑了超过 100 轮、评测提升 30%Hermes Agent 的日均 Token 被称从 20 亿升到近 3000 亿M2.7OpenRouter 日均消耗超过 250 亿 Token。这些数字很大,我会先打个问号,但它指向的方向清楚:大家开始比的不只是模型,而是谁能把 agent 稳定放进执行环境。

文中提到的 Harness 更像关键点:云端沙箱启动 20-40ms80ms,并发每分钟从 1.5 万60 万实例。这个指标不性感,但企业真要跑 agent,就会关心沙箱启动、权限隔离、并发回收、审计和成本上限。

这也是 OpenRouter 被重新讨论的原因。它用单一端点聚合 300+ 模型,很适合团队快速试模型、做企业 AI Sandbox 入口。但材料里也点名了几项隐性成本:prompt caching 失效、agent 场景账单失控、90 天数据留存。上游对过路费有 5%5.5% 两种口径,具体还得看账单;但真正贵的未必是手续费,而是上线前没校准,之后让 agent 在账单里自由奔跑。

Agent 进企业,第一张门票不是“更聪明”,是“别乱动”。

OpenAI 不缺野心,缺的是同时做两件事的算力

OpenAI 最近这条线索不太像退守,倒像一个项目经理拿着算力预算表,把会议室里所有人的愿望挨个砍掉。

Greg Brockman 表示,OpenAI 在算力硬约束下把优先级压到两件事:个人助理,以及可替用户解决难题的 AI 工作体。上游还写到,现有算力甚至不足以同时支撑两者。Sora 资源被收缩,重心转向推理模型、统一 AI layer 和下一代基座 Spud。标题里提到“千亿算力投入”争议,但正文片段没有披露具体金额、时间表和技术参数。

这条有意思的地方在于,OpenAI 并不是从消费者产品撤到 B2B,也不是从模型公司变工具公司,而是算力预算逼着它重新排队。视频生成吃资源,推理模型吃资源,实时个人助理吃资源,agent 长任务也吃资源。过去大家讨论 OpenAI 的产品线,会习惯问“哪个方向更有想象力”;现在更现实的问题是,GPU、内存和推理吞吐先给谁。

供应侧也没有那么宽松。Nikkei Asia 称,到 2027 年底,DRAM 供应商预计只能满足 60% 需求。Samsung、SK Hynix、Micron 都在扩产,但新增产能大多要到 20272028 才上线;已披露的 2026 年增量只有 SK Hynix 在清州 2 月投产的工厂。正文还提到,2026-2027 年需要年增 12% 产量才追得上需求。

这就解释了为什么 Cerebras Systems 提交 IPO 申请会被市场盯上。材料里只披露了两项合作:Amazon Web Services 将在 Amazon 数据中心部署 Cerebras 芯片,OpenAI 合同据称超过 100 亿美元。募资规模、估值和时间表都没披露,所以先别急着封“AI 芯片新王”。但在内存、推理和训练都吃紧的时候,任何能讲“替代路线”的芯片公司都会被重新拿出来估价。

AI 的上半场像是在比谁更聪明,下半场越来越像比谁先订到座位、谁的账本能撑住。

安全护栏没坏在乱码里,坏在正常话里

以前聊大模型越狱,大家脑子里容易出现一堆奇怪符号、角色扮演、反复套娃的提示词。现在最新研究给了一个更麻烦的版本:不用乱码,正常话也能把模型带偏。

香港理工大学西北工业大学团队在 Nature Communications 报告称,在 26 个对齐模型里,有 22 个在分布偏移语义诱导下攻击成功率达到 100%。论文把问题归因于预训练阶段留下的有害知识,以及对齐后的“安全区”仍保持全局连通。连 Llama 3.1 8B Instruct 这类相对稳健模型,也会在自然语言诱导下发生“伦理漂移”。

这里吓人的不是“又找到一种越狱方式”,而是触发方式很普通。不是靠梯度攻击,不是靠乱码堆叠,也不要求用户有多强的提示词工程能力。它更像把模型从一个语境慢慢推到另一个语境,护栏还在,但车已经绕过去了。

同一天另一个安全信号来自图像。量子位那篇“马斯克来抖音卖老干妈了?”里,展示的“马斯克抖音卖老干妈”和“GTA-6 联动”图片均为 OpenAI GPT Image 2 生成,开头提到的“10W+ 在线”只是伪造画面内容。文章给出的核心证据是,GPT Image 2 已经能稳定生成高拟真海报、游戏截图和大段可读文字。模型开放范围、价格和正式发布时间,正文没有披露。

这两条放在一起看,安全问题正在从“模型会不会说坏话”扩展到“用户还能不能相信输入和输出”。联网搜索那边也有类似污染:内容农场用 AI 批量生成带伪造学术引用的英文文章,系统性污染 AI 联网搜索的检索池。样本规模、受影响产品名单和复现方法没有披露,但方向不难想象:检索池被污染后,RAG 再勤快也只是把垃圾捞得更认真。

有图有真相这句话,可能要先暂停使用一阵子了。

高德的机器狗,重点不在半马成绩

高德这次把具身智能讲得很满:ABot-Claw 智能体系统、四足机器人途途、开放环境自主导盲、还有一堆 SOTA。最容易传播的当然是机器狗跑到线下场景里,但真正该看的不是半马名次。

上游材料给了几个硬指标:ABot-M0Libero-Plus 成功率 80.5%,较 Pi0 提升近 30%ABot-N07 项导航评测达到 SOTA;UniACT 已开源 600 万条轨迹9500 多小时数据。另一条材料里,高德公开面向 AGI 的全栈具身技术体系 ABot,宣称拿下 15 项 SOTA;其中 ABot-3DGS 用厘米级地图与轨迹数据生成万级 3D 场景,覆盖率称达 99%ABot-PhysWorld 采用 14B DiT300 万条真实操作视频和物理判别训练。

这些数字当然要谨慎看。挑战赛名称、15 项基准明细、开源范围、商业化时间和价格,正文都没有讲清。只看 SOTA 很容易又回到榜单叙事。

但高德这条线有一个现实优势:地图公司天然有“世界记忆”。它不是从零搭一个机器人数据闭环,而是把地图、轨迹、导航、云边协同和纠错系统往具身智能里迁移。Map as Memory 这件事,如果做成,比一条机器狗会不会抬腿跨障碍更有分量。

我对这条给半票。技术预告已经够强,离“具身平台站稳”还差真实环境里的长期复用。

几个小信号:账本、记忆和挖人

还有几条不适合单独拉长,但值得放进今天的边角栏。

  • Moonshot 讲了一个挺工程化的方向:用 Kimi LinearKV Cache 可跨数据中心传输,把预填充和解码解耦。材料里给的结果是,在 20 倍放大的模型验证中,吞吐提升 1.54 倍P90 TTFT 降低 64%。这条我先信方向,不先信成本;跨机房、异构硬件、真实负载下怎么计费,还得看论文和复现。

  • 德国萨尔大学等团队提出 Disco-RAG,说 RAG 的瓶颈不只在“没搜到”,也在“搜到了但没读懂”。它在检索和生成之间加了 3 步读懂流程,用 RST 构建论证树、段落关系网和写作提纲,全程零训练,并称被 ACL 2026 主会长文录用。正文没有完整披露分数和额外时延,这点别急着忽略。RAG 系统最后拼的经常不是召回,而是处理冲突材料的耐心。

  • 上海创智学院与华东师范大学发布记忆智能体框架 MIA,采用 Manager–Planner–Executor 架构,结合参数与非参数双记忆、交替强化学习和测试时持续学习,称在 7 个数据集上取得最佳表现。分数没给全,所以“全胜”先按预告看;但把记忆从检索缓存改成能力内化,这个方向是对的。

  • Cursor500 亿美元估值融资背景下,把自研 Composer 模型列为降本关键。问题是,上游只讲了“底座加垂直定制、全栈自研、纯 API 消费”三条路线,没有给具体成本、毛利率或复现数据。AI 编程工具要不要自研模型,这个问题不如“每完成一次有效任务到底花多少钱”来得诚实。

  • Meta 继续从 Mira MuratiThinking Machines Lab 挖人,已经招入第五位创始成员 Joshua Gross。材料称这家公司估值 120 亿美元,去年融资 20 亿美元,团队从 30 多人增至 130 多人。薪酬和产品进展没披露,但巨头绕开并购、直接打创始团队争夺战,这个动作本身就够直白。

今天这些小信号合在一起,倒也不小:模型能力还在涨,工程账本、安全边界和人才桌面,开始一起变贵。

更多

频道

后台