AX 的 AI 日报 · 2026-05-25上下文窗口与安全攻防

今天 AI 圈在拼上下文，不是模型

2026年5月25日

今天 AI 圈最有意思的不在某个模型又能写代码了，是几件事同时指向同一个方向：上下文窗口在涨、缓存技术在省、安全护栏在被拆。OpenAI 的 GPT-5.6 被扒出后台日志，上下文拉到 150 万 token；苹果给 Siri 换了个 1.2 万亿参数的谷歌定制模型；而一个叫 Heretic 的工具 10 分钟就能卸掉 Llama 3.3 的安全护栏，已生成 3500 多个“去限制”模型。先来看 GPT-5.6 这条。

GPT-5.6 被扒出后台日志，上下文涨到 150 万 token

这条我会先打个折——全是非官方爆料，OpenAI 一个字都没确认。但数字本身值得看。

开发者在 OpenAI Codex 的后台日志里挖出了一个叫 iris-alpha 的未公开模型，对应 GPT-5.6，可能 6 月发布。最直观的变化是上下文窗口涨到 150 万 token，比现在 GPT-5.5 API 的 105 万多出约 43%。有人在辅助工具 OpenCode 里实测，喂到 90 万 token 还能流畅回话，甚至能处理超过窗口限制的内容。同系列还发现了 ember-alpha 和 beacon-alpha 两个版本。

有意思的是，这不是孤立动作。AI HOT 的报道提到，Anthropic Claude、Google Gemini 和 xAI Grok 也可能瞄准同期发布新模型。如果几家同时出牌，6 月会变成上下文窗口的军备竞赛月，而不是模型能力的比拼。

但话说回来，上下文窗口涨了 43%，实际能用多少、在什么任务上不掉分、成本怎么算，这些全都没说。价格、窗口边界和速率限制都还看不到。先当信号看，别当产品看。

苹果给 Siri 换了个 1.2 万亿参数的谷歌定制模型

这条也有点意思——苹果下一代 Siri 的核心换成了一个定制的谷歌大模型，参数规模 1.2 万亿，比大家猜的 Gemini 3.5 Flash（约 3000 亿参数）大好几倍。复杂任务会交给这个大模型，简单查询还是留在手机上跑。

苹果现在最头疼的是日常问题的响应速度。大模型再聪明，回慢了也没人用。下个月 WWDC 可能会官宣 Apple Intelligence 与 Gemini 的整合，同时期还有 GPT-5.6、可能的 **Sonnet 4.

8/Opus 4.8**，以及已确认的 Gemini 3.5 Pro。

但这条爆料缺了两个关键数字：延迟和成本。1.2 万亿参数跑在云端，每次查询要多久、花多少钱，苹果能不能把体验做到“本地查询”级别的流畅度，这才是决定 Siri 能不能翻身的东西。现在只能看到参数规模，看不到成本边界。

安全护栏 10 分钟被拆，3500 个“去限制”模型在流通

《金融时报》 报道了一个叫 Heretic 的工具，专门用来移除开源模型内置的安全护栏。创建者 Philipp Emanuel Weidmann 说，用这个工具不到 10 分钟就能搞定一个模型，比如 Meta 的 Llama 3.3。目前他们已经生成了 3500 多个“去限制”模型，下载量 1300 万次。

数字挺大，但我会先打个折：1300 万次下载里有多少是真实使用、多少是重复抓取或好奇点击，没人知道。另一条相关报道提到，Meta 和 Google 模型的安全护栏几分钟内就被扒掉，但报道正文是付费墙，没给出模型名、工具和复现步骤。

这件事跟 Anthropic 的 Claude Mythos 形成了对比。Mythos 能自动挖出银行系统的高危漏洞，已发现数千个，覆盖主流操作系统和浏览器。欧洲央行为此紧急开会，要求银行把补丁部署从几周压缩到 30 分钟内——因为黑客可能反向利用。但 Mythos 目前只对少数美国机构开放，欧洲银行拿不到权限，只能靠美国同行分享经验。央行副主席说“没有权限不能成为借口”，但现实就是信息不对称。

安全工具和安全漏洞在同时加速，护栏在拆、漏洞在挖，监管在追。这条线值得继续盯。

缓存技术悄悄省钱：KV 缓存压到 1/10，隐式缓存自动开

今天有两条缓存相关的更新，单独看都不大，放在一起能看出一个趋势：长上下文推理的成本在快速下降。

Shard 这套方法能在 Llama-3.1-8B 上把 KV 缓存占的显存砍掉约 90%。8K 上下文长度时压缩比约 10 倍，拉到 32K 时能到 11 倍。技术路线分两路：对 Key 矩阵先用 PCA 降维再做 int4 量化，对 Value 矩阵则用 Hadamard 旋转配合向量量化。论文在 NIAH 和 LongBench 两个基准上实测不掉分。但正文被 Reddit 安全策略挡了，看不到具体实现细节和复现条件。

另一条是 Qwen3.7-Max 上线了隐式缓存，默认自动启用，用户不用改任何设置就能省成本、提速度。但官方没披露具体省多少钱、延迟降多少，也没给缓存命中率。如果你需要更稳定的效果，可以手动配显式缓存。

这两条放在一起看：一边是学术圈在把缓存压到极限，一边是云厂商在把缓存做成默认开启。长上下文推理的隐性成本在降，但具体降多少，还得自己跑一遍才知道。

小模型搭智能体没成主流，不是技术不行，是没人愿意担验证风险

这条判断很直接：小模型搭的智能体方案没成为主流，跟技术能不能跑通关系不大，核心是商业风险和验证成本。

作者举了两个例子——Gemma 4 31B 在 tau2-bench 上能跑到 86.4% 的准确率，DeepSeek V4-Flash 的输出 token 价格差不多是 Claude Opus 4.6 的 89 分之一，单看指标和成本都挺能打。但问题出在审计上：7-9B 模型正确回答里有一半到三分之二的推理是错的。也就是说，模型能蒙对答案，但中间的逻辑链是断的。

在企业场景里，这会让审计不过关。没人愿意签一个“答案可能对、但推理大概率错”的智能体合同。风投 Tom Tunguz 提出的“智能体重力”概念也指向同一个方向：AI agent 跑起来需要大量算力，哪个平台能提供算力、又能把数据留在自己生态里，agent 就更难迁移走。他举了个例子——Databricks 在微软平台上新加了一个功能，让 Power BI 用户能直接在 Databricks 里建 agent、管数据，而不是用微软自家的 Fabric。这等于在挖对手的数据和 agent workload。

小模型成本低，但验证成本高；大平台锁定强，但迁移成本高。两条线都在说同一件事：智能体落地的瓶颈不在模型能力，在信任和生态。

Olah 在梵蒂冈说了三件事，坦诚得有点意外

Anthropic 联合创始人 Chris Olah 在教皇 利奥十四世 的 AI 通谕发布会上说了三件事，坦诚程度让我有点意外。

他先承认，包括 Anthropic 在内的前沿 AI 实验室都面临商业竞争、研究压力和地缘政治压力，这些会跟“做对的事”冲突，所以必须有人站在这些利益之外盯着。他把现在的 AI 模型比作“让虚构角色活过来”——不是传统工程设计的产物，而是用人类语言“养”出来的，连开发者自己也觉得内部性质复杂难解。

教皇的通谕《伟大的人性》重点警告了 AI 驱动的战争、对劳动力的冲击，以及现有法律和伦理框架跟不上技术权力扩张的问题。但通谕本身更多是原则性呼吁，没给具体政策建议或技术细节。

Olah 的发言比通谕更具体。他提了三个问题：如何确保 AI 发展的全球收益公平分享、如何思考 AI 时代的人类繁荣，以及 AI 模型内在性质的本质。这三个问题没有答案，但问法本身说明了一件事：前沿实验室内部也在摸索边界，不是所有人都觉得“加速就完了”。

今日小信号

谷歌 AlphaProof Nexus 用大语言模型加 Lean 形式化验证，在 353 个开放数学问题里自主解出 9 个，其中 2 个挂了 56 年。每个问题推理成本只要几百美元，这点挺省钱。但 Agent A（最简版本）也能解这 9 个问题，说明底层模型能力提升是关键，别太激动以为是新架构的功劳。
腾讯混元 Hy-MT2 翻译模型在 Hugging Face 上火了一把：1.8B 小模型排趋势榜第一，30B-A3B MoE 版排第四，下载量超 7000。同时上线了微信小程序“腾讯混译”，支持语音输入、离线翻译和自定义风格。1.8B 能排第一说明翻译任务上小参数也能打，但 7000 下载量不算大，热度可能来自腾讯品牌和微信生态。
面壁智能 联合清华等开源了中国首个基于华为昇腾训练的 1.58-bit 端侧大模型 BitCPM-CANN。端侧 1.58-bit 是个技术信号，但缺实际跑分和功耗数据。
众趣科技 把浏览器端 3D 高斯泼溅工具开源了，300 万高斯点测试里内存只用 Spark 2.0 一半，加载快一倍，渲染快两倍，宣称能撑 10 亿点。但正文因为环境验证没抓到技术细节，实际效果得自己跑。
Grok Build 测试版开放给 SuperGrok 和 X Premium+ 用户，给了分步规划、生图和命令行接口，但缺任务完成率和稳定性数据，先当半成品看。