AX 的 AI 日报 · 2026-05-22代理工具链落地，算力账本膨胀

谷歌把代理工具链打包，老黄把算力账本翻四倍

2026年5月22日

今天 AI 圈两件事同时发生：谷歌在 I/O 大会一口气甩出整套代理开发工具，从桌面到浏览器到部署全给了；黄仁勋在财报会上把云厂商 AI 基建年开支预期直接拉到 4 万亿美元，是华尔街共识的四倍。一边是工具链落地，一边是算力账本膨胀，中间夹着 Anthropic 用新模型扫出上万高危漏洞、Karpathy 用 65 行规则把编程准确率拉到 94%。先看谷歌这一套。

谷歌把代理工具链一口气打包了，从桌面到浏览器到部署全给

谷歌这次 I/O 大会发布的不是单个模型，是一条让 AI 代理落地的完整工具链。核心是 Antigravity 2.0，一个独立桌面应用，配了命令行工具和 SDK，开发者可以直接在本机跑代理。Google AI Studio 新增 Kotlin 支持，号称能一键生成安卓应用并发布，还出了手机版 App。

更值得看的是两件事：一是 Gemini API 里加了托管代理服务，部署步骤简化到一键；二是 WebMCP 作为开放标准在 Chrome 149 中推出，允许网页向代理暴露工具。Chrome DevTools 也开放给 AI 代理做自动化调试。企业客户可以直接连接 Google Cloud 项目，DeepMind 的科学技能包则加速特定领域研究。

同时，Gemini 应用月活用户超过 9 亿，新模型 Gemini 3.5 Flash 上线，还换了套叫"Neural Expressive"的设计语言。两项代理功能值得留意：Daily Brief 出个性化每日简报，Spark 能替你主动干活。但 Google 没说是怎么算的 9 亿月活，代理功能实际能接管多少任务、会不会翻车，缺少细节。

付费版 Antigravity 的 Gemini 配额也翻了三倍。整体看，谷歌这次是把代理开发的各个环节都铺了路，从桌面到浏览器到部署都给了。但别急着喊生态，先看实际跑起来稳不稳。

黄仁勋说 AI 基建年开支会冲到 4 万亿美元，比华尔街共识高了四倍

老黄在英伟达财报电话会上抛出一个数字：超大规模云厂商的 AI 基建年开支会从现在的 1 万亿美元涨到 3 到 4 万亿，CFO 给的时间线是 2030 年前。华尔街分析师原本的共识是 2028 年才到 1.03 万亿，老黄直接翻了四倍。

财报本身也炸：英伟达 2027 财年 Q1 营收 816 亿美元，同比增长 85%，净利润 583 亿美元，翻了两倍多，市值达 5.7 万亿美元，已超德国 2026 年 GDP 预测。数据中心业务营收 752 亿美元，占比超九成。一季度谷歌、亚马逊、微软三家资本开支加起来已经超过 1100 亿美元，Meta 更是把全年预算拉到 1450 亿。

但这条我会先打个折。老黄是卖铲子的，给淘金者画饼是他的工作。4 万亿美元这个数字目前只有他一个人在说，华尔街共识还停在 1 万亿。另外财报也提到，AI 基建的高能耗正推高居民电费，数据中心用电成本转嫁效应已初步显现——这笔账最后谁买单，还不一定。

Anthropic 用新模型扫出上万高危漏洞，验证准确率 90.6%

Anthropic 的 Project Glasswing 项目出了初步结果：用 Claude Mythos Preview 模型，和大约 50 家合作伙伴一起，在全球最关键的基础软件里找到了超过 一万个高危或严重级别的漏洞。多家合作伙伴报告漏洞发现效率提升超过十倍。

具体案例：Cloudflare 在关键路径系统发现 2000 个漏洞；Mozilla 在 Firefox 150 中发现并修复 271 个漏洞，数量远超前代模型。项目还扫描了千余个支撑互联网的开源项目，独立验证准确率达 90.6%。在开源软件扫描这块，模型自己估算发现了 6202 个高危或严重漏洞，其中 1752 个已经过独立安全公司或 Anthropic 验证。

这个数字确实大，但我会先打个折：缺少误报率和漏报率。90.6% 的准确率意味着还有近一成可能是误报，而漏掉了多少根本不知道。现在瓶颈已经不是找漏洞的速度，而是验证、通报和打补丁的速度——找到一万个漏洞，修得过来吗？

Karpathy 用 65 行规则把 AI 编程准确率从 65% 拉到 94%

Karpathy 在 GitHub 上发了一个叫 CLAUDE.md 的规则文件，65 行、4 条规则，让 AI 编程准确率从 65% 跳到 94%。核心思路是逼开发者先想清楚再动手：深度思考、代码越短越好、只改该改的地方、每一步都盯着目标走。文件已经拿了超 22 万星标。

但这个 94% 的数字我会先打七折看。正文没说是测什么任务、用什么模型、对比基线是什么。65% 的起点也很模糊——是在什么条件下测出来的？如果基线本身就很低，提升幅度大也不奇怪。

有意思的不是数字本身，是思路：Karpathy 用极简的规则文件对抗开发者"先写再说"的本能，把深度思考变成硬性约束。这和 Kakuna 那个自动加固代码的工具形成互补——一个在写之前逼你想，一个在写之后帮你改。

华为昇腾全栈训练的 1.58 比特模型开源，内存省了约 6 倍

ModelBest、清华大学和 OpenBMB 社区联合发布了 BitCPM-CANN，全球首个完全基于华为昇腾 910B NPU 训练的开源 1.58 比特三元大模型。从 0.5B 到 8B 都有，全程没走英伟达路线。

1.58 比特三元量化意味着每个权重只取三种值，内存比 BF16 省了约 6 倍，能塞进手机、电脑和车载设备里跑。基准测试成绩保住了全精度模型的 95-97%，这点挺实在。整个训练全栈——从量化算子到框架——均在昇腾上原生构建与验证，不是简单移植。

但我会先打个折：缺少具体推理延迟和功耗数据。内存省了 6 倍不代表跑得快、不费电。边缘设备上部署，功耗和延迟才是关键指标，这两项都没给。另外也没提和同尺寸其他量化模型的横向对比。

智能体工作负载正在改写推理成本账本

SemiAnalysis 扒了 43.2 万条真实编码智能体的请求记录，发现输入 token 的中位数不是大家常说的 3.2 万或 6.4 万，而是 9.6 万。这个量级意味着模型在接到你的问题之前，已经吞下了比《了不起的盖茨比》全书还长的上下文。

这个数字对算账很重要。如果中位数是 9.6 万而不是 3.2 万，推理成本就是之前预估的三倍。但这条先当参考看：缺少用了哪些模型、成本曲线、采样方式和统计时间窗口。不知道是哪些模型拉高了中位数，也不知道成本分布是均匀的还是被少数极端案例拉上去的。

另外 Dharma-AI 在 Hugging Face 发了篇博文，说大模型上线后经常出现文本退化——输出内容来回重复、前言不搭后语或者逻辑崩掉。这种故障直接影响用户体感，但主流基准测试基本没把这类问题纳入评分。文章呼吁业界在评估体系里加上对文本退化的系统追踪和量化指标，但缺少具体的指标设计或实验数据。这两件事放在一起看：智能体的上下文越来越长，但模型在长上下文下的稳定性还没人认真测。

今日小信号

DeepSeek V4 Pro 永久降价，但只说了"优惠永久化"，没给新价格、原价和生效时间。省多少全靠猜。同时 DeepSeek 正推进 700 亿元融资，估值约 450 亿美元，梁文锋承诺继续开源不追求短期商业化。V4 Flash 已登顶 OpenRouter 周榜。
奥纬咨询调查：74% 的科技公司 CEO 在冻结或缩减招聘，打算砍入门级职位的比例从去年的 17% 翻到 43%。但 67% 的 AI 部署还在试点阶段——裁人比用 AI 快，这个时间差会先伤到团队。
Claude 自动模式下放到 Pro 计划，接入了 Sonnet 4.6 和 Opus 4.7，按 Shift+Tab 就能跑任务。但没提价格和推送范围。Claude Code v2.1.149 更新了用量分类展示，企业版可以直接用 Anthropic 云端的 MCP 连接器。
阿里千问 App 上线 Qwen3.7-Max，免费可用。官方说能跑 35 小时不断思路、调用工具超 1000 次，但这是自家测试，实际稳不稳还得自己试。
网易有道开源了 270 亿参数的多模态模型和语音合成模型，多模态模型在纯中文数理难题上准确率 81.4%，语音合成支持 3 秒中文音频克隆音色、跨 14 种语言。
Perplexity 开源 Bumblebee，只读扫描器，专查 macOS/Linux 开发者机器上的高危包和 AI 工具配置。连上 Computer 平台后新风险出现能自动触发深度扫描。Windows 暂不支持。
ChatGPT 语音模式现在能拍表单照片、用嘴说填什么，吐出填好的版本。但没提支持哪些格式、语言、要不要付费。
Project Genie 接入谷歌街景，能把美国真实地点转成交互式世界。但没提支持哪些城市、怎么收费、生成要多久，先当概念演示看。
Cursor 被 Gartner 评为 2026 年企业级 AI 编码代理魔力象限领导者，超 70% 财富 500 强在用。GitHub 连续第三年被评为同一象限领导者，OpenAI Codex 也被列为领导者。三家同时上榜，这个赛道正在快速收敛。
发改委用机器人半马成绩说话：参赛队从 20 多支涨到百余支，完赛从 6 支涨到 40 多支。下一步建训练基础设施和应用中试基地，但缺具体投资规模和时间表。