ax@ax-radar:~/daily/2026-05-22 $ cat newsletter/daily/2026-05-22.md
41 srcsignal 72%cycle 04:32
AX 的 AI 日报 · 2026-05-22代理工具链落地,算力账本膨胀

谷歌把代理工具链打包,老黄把算力账本翻四倍

今天 AI 圈两件事同时发生:谷歌在 I/O 大会一口气甩出整套代理开发工具,从桌面到浏览器到部署全给了;黄仁勋在财报会上把云厂商 AI 基建年开支预期直接拉到 4 万亿美元,是华尔街共识的四倍。一边是工具链落地,一边是算力账本膨胀,中间夹着 Anthropic 用新模型扫出上万高危漏洞、Karpathy 用 65 行规则把编程准确率拉到 94%。先看谷歌这一套。

谷歌把代理工具链一口气打包了,从桌面到浏览器到部署全给

谷歌这次 I/O 大会发布的不是单个模型,是一条让 AI 代理落地的完整工具链。核心是 Antigravity 2.0,一个独立桌面应用,配了命令行工具和 SDK,开发者可以直接在本机跑代理。Google AI Studio 新增 Kotlin 支持,号称能一键生成安卓应用并发布,还出了手机版 App。

更值得看的是两件事:一是 Gemini API 里加了托管代理服务,部署步骤简化到一键;二是 WebMCP 作为开放标准在 Chrome 149 中推出,允许网页向代理暴露工具。Chrome DevTools 也开放给 AI 代理做自动化调试。企业客户可以直接连接 Google Cloud 项目,DeepMind 的科学技能包则加速特定领域研究。

同时,Gemini 应用月活用户超过 9 亿,新模型 Gemini 3.5 Flash 上线,还换了套叫"Neural Expressive"的设计语言。两项代理功能值得留意:Daily Brief 出个性化每日简报,Spark 能替你主动干活。但 Google 没说是怎么算的 9 亿月活,代理功能实际能接管多少任务、会不会翻车,缺少细节。

付费版 Antigravity 的 Gemini 配额也翻了三倍。整体看,谷歌这次是把代理开发的各个环节都铺了路,从桌面到浏览器到部署都给了。但别急着喊生态,先看实际跑起来稳不稳。

黄仁勋说 AI 基建年开支会冲到 4 万亿美元,比华尔街共识高了四倍

老黄在英伟达财报电话会上抛出一个数字:超大规模云厂商的 AI 基建年开支会从现在的 1 万亿美元涨到 3 到 4 万亿,CFO 给的时间线是 2030 年前。华尔街分析师原本的共识是 2028 年才到 1.03 万亿,老黄直接翻了四倍。

财报本身也炸:英伟达 2027 财年 Q1 营收 816 亿美元,同比增长 85%,净利润 583 亿美元,翻了两倍多,市值达 5.7 万亿美元,已超德国 2026 年 GDP 预测。数据中心业务营收 752 亿美元,占比超九成。一季度谷歌、亚马逊、微软三家资本开支加起来已经超过 1100 亿美元,Meta 更是把全年预算拉到 1450 亿

但这条我会先打个折。老黄是卖铲子的,给淘金者画饼是他的工作。4 万亿美元这个数字目前只有他一个人在说,华尔街共识还停在 1 万亿。另外财报也提到,AI 基建的高能耗正推高居民电费,数据中心用电成本转嫁效应已初步显现——这笔账最后谁买单,还不一定。

Anthropic 用新模型扫出上万高危漏洞,验证准确率 90.6%

Anthropic 的 Project Glasswing 项目出了初步结果:用 Claude Mythos Preview 模型,和大约 50 家合作伙伴一起,在全球最关键的基础软件里找到了超过 一万个高危或严重级别的漏洞。多家合作伙伴报告漏洞发现效率提升超过十倍。

具体案例:Cloudflare 在关键路径系统发现 2000 个漏洞;MozillaFirefox 150 中发现并修复 271 个漏洞,数量远超前代模型。项目还扫描了千余个支撑互联网的开源项目,独立验证准确率达 90.6%。在开源软件扫描这块,模型自己估算发现了 6202 个高危或严重漏洞,其中 1752 个已经过独立安全公司或 Anthropic 验证。

这个数字确实大,但我会先打个折:缺少误报率和漏报率。90.6% 的准确率意味着还有近一成可能是误报,而漏掉了多少根本不知道。现在瓶颈已经不是找漏洞的速度,而是验证、通报和打补丁的速度——找到一万个漏洞,修得过来吗?

Karpathy 用 65 行规则把 AI 编程准确率从 65% 拉到 94%

Karpathy 在 GitHub 上发了一个叫 CLAUDE.md 的规则文件,65 行4 条规则,让 AI 编程准确率从 65% 跳到 94%。核心思路是逼开发者先想清楚再动手:深度思考、代码越短越好、只改该改的地方、每一步都盯着目标走。文件已经拿了超 22 万星标。

但这个 94% 的数字我会先打七折看。正文没说是测什么任务、用什么模型、对比基线是什么。65% 的起点也很模糊——是在什么条件下测出来的?如果基线本身就很低,提升幅度大也不奇怪。

有意思的不是数字本身,是思路:Karpathy 用极简的规则文件对抗开发者"先写再说"的本能,把深度思考变成硬性约束。这和 Kakuna 那个自动加固代码的工具形成互补——一个在写之前逼你想,一个在写之后帮你改。

华为昇腾全栈训练的 1.58 比特模型开源,内存省了约 6 倍

ModelBest清华大学OpenBMB 社区联合发布了 BitCPM-CANN,全球首个完全基于华为昇腾 910B NPU 训练的开源 1.58 比特三元大模型。从 0.5B 到 8B 都有,全程没走英伟达路线。

1.58 比特三元量化意味着每个权重只取三种值,内存比 BF16 省了约 6 倍,能塞进手机、电脑和车载设备里跑。基准测试成绩保住了全精度模型的 95-97%,这点挺实在。整个训练全栈——从量化算子到框架——均在昇腾上原生构建与验证,不是简单移植。

但我会先打个折:缺少具体推理延迟和功耗数据。内存省了 6 倍不代表跑得快、不费电。边缘设备上部署,功耗和延迟才是关键指标,这两项都没给。另外也没提和同尺寸其他量化模型的横向对比。

智能体工作负载正在改写推理成本账本

SemiAnalysis 扒了 43.2 万条真实编码智能体的请求记录,发现输入 token 的中位数不是大家常说的 3.2 万或 6.4 万,而是 9.6 万。这个量级意味着模型在接到你的问题之前,已经吞下了比《了不起的盖茨比》全书还长的上下文。

这个数字对算账很重要。如果中位数是 9.6 万而不是 3.2 万,推理成本就是之前预估的三倍。但这条先当参考看:缺少用了哪些模型、成本曲线、采样方式和统计时间窗口。不知道是哪些模型拉高了中位数,也不知道成本分布是均匀的还是被少数极端案例拉上去的。

另外 Dharma-AI 在 Hugging Face 发了篇博文,说大模型上线后经常出现文本退化——输出内容来回重复、前言不搭后语或者逻辑崩掉。这种故障直接影响用户体感,但主流基准测试基本没把这类问题纳入评分。文章呼吁业界在评估体系里加上对文本退化的系统追踪和量化指标,但缺少具体的指标设计或实验数据。这两件事放在一起看:智能体的上下文越来越长,但模型在长上下文下的稳定性还没人认真测。

今日小信号

  • DeepSeek V4 Pro 永久降价,但只说了"优惠永久化",没给新价格、原价和生效时间。省多少全靠猜。同时 DeepSeek 正推进 700 亿元融资,估值约 450 亿美元,梁文锋承诺继续开源不追求短期商业化。V4 Flash 已登顶 OpenRouter 周榜。
  • 奥纬咨询调查:74% 的科技公司 CEO 在冻结或缩减招聘,打算砍入门级职位的比例从去年的 17% 翻到 43%。但 67% 的 AI 部署还在试点阶段——裁人比用 AI 快,这个时间差会先伤到团队。
  • Claude 自动模式下放到 Pro 计划,接入了 Sonnet 4.6Opus 4.7,按 Shift+Tab 就能跑任务。但没提价格和推送范围。Claude Code v2.1.149 更新了用量分类展示,企业版可以直接用 Anthropic 云端的 MCP 连接器。
  • 阿里千问 App 上线 Qwen3.7-Max,免费可用。官方说能跑 35 小时不断思路、调用工具超 1000 次,但这是自家测试,实际稳不稳还得自己试。
  • 网易有道开源了 270 亿参数的多模态模型和语音合成模型,多模态模型在纯中文数理难题上准确率 81.4%,语音合成支持 3 秒中文音频克隆音色、跨 14 种语言。
  • Perplexity 开源 Bumblebee,只读扫描器,专查 macOS/Linux 开发者机器上的高危包和 AI 工具配置。连上 Computer 平台后新风险出现能自动触发深度扫描。Windows 暂不支持。
  • ChatGPT 语音模式现在能拍表单照片、用嘴说填什么,吐出填好的版本。但没提支持哪些格式、语言、要不要付费。
  • Project Genie 接入谷歌街景,能把美国真实地点转成交互式世界。但没提支持哪些城市、怎么收费、生成要多久,先当概念演示看。
  • Cursor 被 Gartner 评为 2026 年企业级 AI 编码代理魔力象限领导者,超 70% 财富 500 强在用。GitHub 连续第三年被评为同一象限领导者,OpenAI Codex 也被列为领导者。三家同时上榜,这个赛道正在快速收敛。
  • 发改委用机器人半马成绩说话:参赛队从 20 多支涨到百余支,完赛从 6 支涨到 40 多支。下一步建训练基础设施和应用中试基地,但缺具体投资规模和时间表。

更多

频道

后台