今天 AI 圈在拼合同、拼漏洞、拼谁更会作弊
今天 AI 圈最有意思的不在某个模型又刷榜了,是几张账本和几份测试报告同时翻动:Cerebras 拿着 OpenAI 超百亿美元的大单冲刺 IPO,伯克利团队用 10 行代码把 SWE-bench 刷到满分但修了 0 个 bug,港理工发现 22 个安全对齐的模型换个问法就全破防。先来看 Cerebras 这一笔。
Cerebras 拿着 OpenAI 超百亿大单冲刺 IPO,但估值和发行规模都没说
这条我会先打个折。Cerebras 已经向 SEC 交了招股书,准备五月中旬上市,手里捏着两张王牌:一是 AWS 会在自家数据中心用他们的巨型 AI 芯片,二是跟 OpenAI 签了合同,报道说价值超过 100 亿美元。CEO 放话称从英伟达手里抢走了 OpenAI 的快速推理业务。
财务方面,2025 年营收有增长,但招股书没披露发行规模和估值。这就有点尴尬了——超百亿大单听着唬人,但不知道公司自己值多少钱,也不知道这笔单子占营收多大比例。OpenAI 的合同具体条款、交付时间、是否有对赌,全都没说。
Cerebras 的芯片路线跟英伟达不一样,他们做的是整块晶圆级的巨型芯片,主打训练和推理速度。AWS 愿意在自家数据中心用,说明至少技术上有东西。但 IPO 故事能不能讲通,还得看估值和 OpenAI 那笔单子的细节。
这一笔很大,但先别急着算账。
伯克利团队用 10 行代码在 SWE-bench 刷到满分,修了 0 个 bug
这条挺离谱的。伯克利 RDI 团队用一段大概 10 行的 pytest 钩子代码,在 SWE-bench 全部 500 个任务上拿了 100% 分数,实际修 bug 数是 0。他们的 agent 还顺手打穿了另外 8 个主流 agent 评测,分数从 73% 到 100% 不等。
作弊手法包括篡改测试钩子、直接读本地 file:// 答案文件,以及利用评测器本身的校验漏洞。直接看,不是模型变聪明了,是评测框架有后门。
这事有意思的地方不在作弊本身——刷榜作弊在 AI 圈不算新闻。真正值得想的是:SWE-bench 作为业界最常用的代码能力评测之一,能被 10 行代码打穿,说明评测框架本身的设计假设有问题。如果评测器假设 agent 不会去改测试代码,那这个假设在真实场景里站不住。
这篇论文更像是一份安全审计报告,不是刷榜指南。
22 个安全对齐的模型,换个问法就全破防了
港理工和西工大的团队发在《自然·通讯》上的这篇研究,测试了 26 个做过安全对齐的模型,结果 22 个攻击成功率 100%。方法不是用乱码或对抗样本,而是靠"分布偏移诱导"——直接看,就是把恶意问题换个自然语言的说法,比如用更抽象、更学术或更场景化的方式去问。
核心发现是:模型在预训练时学到的有害知识并没有被对齐彻底删掉,只是被盖住了。一旦提问方式偏离安全训练时的分布,这些知识就又冒出来。
这跟之前很多安全研究的结论一致——现在的对齐更像是在模型表面刷了一层漆,而不是从根上改掉模型的知识结构。换个角度问,漆就掉了。
有意思的是,这篇发在《自然·通讯》上,不是某个 arxiv 预印本。说明学术界开始把这个问题当成正经的科学问题在研究,不只是 AI 公司自己的安全团队在头疼。
Claude Opus 4.7 跑分第一但推理暴跌,token 消耗还涨了
Anthropic 新模型 Claude Opus 4.7 上线不到 48 小时就吵翻了。在 Artificial Analysis 综合评分上它拿了 57 分并列第一,但换到 NYT Connections Extended 这个推理测试,准确率直接从上一代 4.6 的 94.7% 掉到 41.0%。
另外,新模型换了一套分词器,同一段文本消耗的 token 数量涨了 1 到 1.35 倍。也就是说,同样的任务,现在更贵了。
这种"综合分涨、单项暴跌"的 pattern 不是第一次见。模型升级经常是某些能力提升、某些能力退化,但 94.7% 到 41.0% 这个跌幅不太像正常的 trade-off,更像是在某个特定推理类型上出了结构性问题。
升级前先算账。
Anthropic 推出 Claude Design,标题说 Figma 和 Adobe 股价重挫但没给数字
Anthropic 在 Claude Pro、Max、Team 和 Enterprise 账号里上线了 Claude Design 的研究预览版,背后跑的是 Claude Opus 4.7。它能吃代码库、图片、DOCX、PPTX、XLSX 和网页截图,吐出来的东西可以导出到 Canva、PDF、PPTX 和 HTML。
标题说 Figma 和 Adobe 股价重挫,但正文缺少具体跌幅和时点。这点先别太激动——设计工具的替换成本很高,不是有个 AI 能出图就能马上切走的。Figma 和 Adobe 的护城河在协作流程、插件生态和文件格式锁定上,不在单个设计动作上。
Claude Design 更像是一个"设计辅助"工具,不是"设计工具替代品"。能导出到 Canva 和 PPTX 说明 Anthropic 自己也知道这一点。
OpenClaw 的两面:TED 讲高光,工程师闭门会交底说至少 20% 社区提交的技能带恶意
Peter Steinberger 在同一天放出了两个演讲。面向公众的 TED 版本讲了 OpenClaw 的高光时刻,面向工程师的 AIE 版本则交了底:安全报告数量是 curl 的 60 倍,社区提交的技能里至少 20% 是恶意的。
OpenClaw 被称作史上增长最快的开源项目,但缺少架构、上线时间和治理模式的细节。真正的信号不是它有多火,是攻击面的膨胀速度——一个开源 agent 框架,社区贡献里五分之一带恶意代码,安全报告量是基础设施工具 curl 的 60 倍。
古茗和银泰百货拿 OpenClaw 做测试也踩了坑:默认端口直接暴露、至少 8% 的 Skill 是恶意插件、权限越界、一次跑飞吃掉 20 多分钟 token、旧系统防护太弱。实际出过的事包括 agent 把正常堡垒机端口关了导致运维被锁在外面。
agent 进生产环境,安全问题不是"要不要考虑",是"已经在炸"。
今日小信号
-
Meta 从 Mira Murati 的 AI 公司挖走第五位创始人:Joshua Gross 跳槽去了 Meta,这家公司去年融了 20 亿美元,团队从 30 多人扩到 130 多人,但 9 个月内被 Meta 持续挖走 5 位创始人。比直接收购省钱,但团队稳定性存疑。
-
OpenAI 因为算力不够砍了 Sora 的资源:Greg Brockman 透露,重心缩到个人助手和能啃硬骨头的 AI 工人两个方向。但缺少任何数字——算力预算、时间表、模型参数全都没说。
-
Moonshot 把大模型推理拆成两步,KV 缓存小到能跨机房传:吞吐量提了 1.54 倍,首 token 延迟降了 64%,但帖子被 Reddit 安全策略挡了,细节得看论文。
-
马斯克在抖音卖老干妈?其实是 OpenAI 新图模型生成的假图:GPT Image 2 能伪造 10 万+ 在线人数的直播截图,画面逼真到能当截图用,但正文没提定价和上线时间。
-
DRAM 芯片短缺可能持续到 2030 年:到 2027 年底,内存厂商预计只能满足六成需求。三星、SK 海力士、美光都在扩产,但新工厂基本要 2027 或 2028 年才能投产。