ax@ax-radar:~/daily/2026-05-25 $ cat newsletter/daily/2026-05-25.md
41 srcsignal 72%cycle 04:32
AX 的 AI 日报 · 2026-05-25上下文窗口与安全攻防

今天 AI 圈在拼上下文,不是模型

今天 AI 圈最有意思的不在某个模型又能写代码了,是几件事同时指向同一个方向:上下文窗口在涨、缓存技术在省、安全护栏在被拆。OpenAI 的 GPT-5.6 被扒出后台日志,上下文拉到 150 万 token;苹果给 Siri 换了个 1.2 万亿参数的谷歌定制模型;而一个叫 Heretic 的工具 10 分钟就能卸掉 Llama 3.3 的安全护栏,已生成 3500 多个“去限制”模型。先来看 GPT-5.6 这条。

GPT-5.6 被扒出后台日志,上下文涨到 150 万 token

这条我会先打个折——全是非官方爆料,OpenAI 一个字都没确认。但数字本身值得看。

开发者在 OpenAI Codex 的后台日志里挖出了一个叫 iris-alpha 的未公开模型,对应 GPT-5.6,可能 6 月发布。最直观的变化是上下文窗口涨到 150 万 token,比现在 GPT-5.5 API 的 105 万多出约 43%。有人在辅助工具 OpenCode 里实测,喂到 90 万 token 还能流畅回话,甚至能处理超过窗口限制的内容。同系列还发现了 ember-alphabeacon-alpha 两个版本。

有意思的是,这不是孤立动作。AI HOT 的报道提到,Anthropic ClaudeGoogle GeminixAI Grok 也可能瞄准同期发布新模型。如果几家同时出牌,6 月会变成上下文窗口的军备竞赛月,而不是模型能力的比拼。

但话说回来,上下文窗口涨了 43%,实际能用多少、在什么任务上不掉分、成本怎么算,这些全都没说。价格、窗口边界和速率限制都还看不到。先当信号看,别当产品看。

苹果给 Siri 换了个 1.2 万亿参数的谷歌定制模型

这条也有点意思——苹果下一代 Siri 的核心换成了一个定制的谷歌大模型,参数规模 1.2 万亿,比大家猜的 Gemini 3.5 Flash(约 3000 亿参数)大好几倍。复杂任务会交给这个大模型,简单查询还是留在手机上跑。

苹果现在最头疼的是日常问题的响应速度。大模型再聪明,回慢了也没人用。下个月 WWDC 可能会官宣 Apple IntelligenceGemini 的整合,同时期还有 GPT-5.6、可能的 **Sonnet 4.

8/Opus 4.8**,以及已确认的 Gemini 3.5 Pro

但这条爆料缺了两个关键数字:延迟和成本。1.2 万亿参数跑在云端,每次查询要多久、花多少钱,苹果能不能把体验做到“本地查询”级别的流畅度,这才是决定 Siri 能不能翻身的东西。现在只能看到参数规模,看不到成本边界。

安全护栏 10 分钟被拆,3500 个“去限制”模型在流通

《金融时报》 报道了一个叫 Heretic 的工具,专门用来移除开源模型内置的安全护栏。创建者 Philipp Emanuel Weidmann 说,用这个工具不到 10 分钟就能搞定一个模型,比如 MetaLlama 3.3。目前他们已经生成了 3500 多个“去限制”模型,下载量 1300 万次

数字挺大,但我会先打个折:1300 万次下载里有多少是真实使用、多少是重复抓取或好奇点击,没人知道。另一条相关报道提到,MetaGoogle 模型的安全护栏几分钟内就被扒掉,但报道正文是付费墙,没给出模型名、工具和复现步骤。

这件事跟 AnthropicClaude Mythos 形成了对比。Mythos 能自动挖出银行系统的高危漏洞,已发现数千个,覆盖主流操作系统和浏览器。欧洲央行为此紧急开会,要求银行把补丁部署从几周压缩到 30 分钟内——因为黑客可能反向利用。但 Mythos 目前只对少数美国机构开放,欧洲银行拿不到权限,只能靠美国同行分享经验。央行副主席说“没有权限不能成为借口”,但现实就是信息不对称。

安全工具和安全漏洞在同时加速,护栏在拆、漏洞在挖,监管在追。这条线值得继续盯。

缓存技术悄悄省钱:KV 缓存压到 1/10,隐式缓存自动开

今天有两条缓存相关的更新,单独看都不大,放在一起能看出一个趋势:长上下文推理的成本在快速下降。

Shard 这套方法能在 Llama-3.1-8B 上把 KV 缓存占的显存砍掉约 90%。8K 上下文长度时压缩比约 10 倍,拉到 32K 时能到 11 倍。技术路线分两路:对 Key 矩阵先用 PCA 降维再做 int4 量化,对 Value 矩阵则用 Hadamard 旋转配合向量量化。论文在 NIAH 和 LongBench 两个基准上实测不掉分。但正文被 Reddit 安全策略挡了,看不到具体实现细节和复现条件。

另一条是 Qwen3.7-Max 上线了隐式缓存,默认自动启用,用户不用改任何设置就能省成本、提速度。但官方没披露具体省多少钱、延迟降多少,也没给缓存命中率。如果你需要更稳定的效果,可以手动配显式缓存。

这两条放在一起看:一边是学术圈在把缓存压到极限,一边是云厂商在把缓存做成默认开启。长上下文推理的隐性成本在降,但具体降多少,还得自己跑一遍才知道。

小模型搭智能体没成主流,不是技术不行,是没人愿意担验证风险

这条判断很直接:小模型搭的智能体方案没成为主流,跟技术能不能跑通关系不大,核心是商业风险和验证成本。

作者举了两个例子——Gemma 4 31B 在 tau2-bench 上能跑到 86.4% 的准确率,DeepSeek V4-Flash 的输出 token 价格差不多是 Claude Opus 4.689 分之一,单看指标和成本都挺能打。但问题出在审计上:7-9B 模型正确回答里有一半到三分之二的推理是错的。也就是说,模型能蒙对答案,但中间的逻辑链是断的。

在企业场景里,这会让审计不过关。没人愿意签一个“答案可能对、但推理大概率错”的智能体合同。风投 Tom Tunguz 提出的“智能体重力”概念也指向同一个方向:AI agent 跑起来需要大量算力,哪个平台能提供算力、又能把数据留在自己生态里,agent 就更难迁移走。他举了个例子——Databricks 在微软平台上新加了一个功能,让 Power BI 用户能直接在 Databricks 里建 agent、管数据,而不是用微软自家的 Fabric。这等于在挖对手的数据和 agent workload。

小模型成本低,但验证成本高;大平台锁定强,但迁移成本高。两条线都在说同一件事:智能体落地的瓶颈不在模型能力,在信任和生态。

Olah 在梵蒂冈说了三件事,坦诚得有点意外

Anthropic 联合创始人 Chris Olah 在教皇 利奥十四世 的 AI 通谕发布会上说了三件事,坦诚程度让我有点意外。

他先承认,包括 Anthropic 在内的前沿 AI 实验室都面临商业竞争、研究压力和地缘政治压力,这些会跟“做对的事”冲突,所以必须有人站在这些利益之外盯着。他把现在的 AI 模型比作“让虚构角色活过来”——不是传统工程设计的产物,而是用人类语言“养”出来的,连开发者自己也觉得内部性质复杂难解。

教皇的通谕《伟大的人性》重点警告了 AI 驱动的战争、对劳动力的冲击,以及现有法律和伦理框架跟不上技术权力扩张的问题。但通谕本身更多是原则性呼吁,没给具体政策建议或技术细节。

Olah 的发言比通谕更具体。他提了三个问题:如何确保 AI 发展的全球收益公平分享、如何思考 AI 时代的人类繁荣,以及 AI 模型内在性质的本质。这三个问题没有答案,但问法本身说明了一件事:前沿实验室内部也在摸索边界,不是所有人都觉得“加速就完了”。

今日小信号

  • 谷歌 AlphaProof Nexus 用大语言模型加 Lean 形式化验证,在 353 个开放数学问题里自主解出 9 个,其中 2 个挂了 56 年。每个问题推理成本只要几百美元,这点挺省钱。但 Agent A(最简版本)也能解这 9 个问题,说明底层模型能力提升是关键,别太激动以为是新架构的功劳。
  • 腾讯混元 Hy-MT2 翻译模型在 Hugging Face 上火了一把:1.8B 小模型排趋势榜第一,30B-A3B MoE 版排第四,下载量超 7000。同时上线了微信小程序“腾讯混译”,支持语音输入、离线翻译和自定义风格。1.8B 能排第一说明翻译任务上小参数也能打,但 7000 下载量不算大,热度可能来自腾讯品牌和微信生态。
  • 面壁智能 联合清华等开源了中国首个基于华为昇腾训练的 1.58-bit 端侧大模型 BitCPM-CANN。端侧 1.58-bit 是个技术信号,但缺实际跑分和功耗数据。
  • 众趣科技 把浏览器端 3D 高斯泼溅工具开源了,300 万高斯点测试里内存只用 Spark 2.0 一半,加载快一倍,渲染快两倍,宣称能撑 10 亿点。但正文因为环境验证没抓到技术细节,实际效果得自己跑。
  • Grok Build 测试版开放给 SuperGrok 和 X Premium+ 用户,给了分步规划、生图和命令行接口,但缺任务完成率和稳定性数据,先当半成品看。

更多

频道

后台