AX 的 AI 日报 · 2026-06-03算账与亮剑

微软自研模型亮剑，AI 圈进入算账模式

2026年6月3日

今天 AI 圈最有意思的不是某个模型又刷榜了，是几笔账同时翻动：微软一口气发了七个自研模型，头一回做推理模型，但跑分只跟 DeepSeek V3.2 打平；Suno 拿了 4 亿美元，估值冲到 54 亿，但没公布谁投的、钱怎么花；优步给员工每月每款 AI 工具设了 1500 美元上限，相当于年薪的 11%。先来看微软这一把。

微软一口气发了七个自研模型，但推理模型跑分只跟 DeepSeek V3.2 打平

微软在 Build 2026 上亮出了家底，一口气发了七个自研模型，头一回做推理模型 MAI-Thinking-1。这是个万亿参数、每次激活 350 亿 的大家伙，上下文窗口 12.8 万 token，专啃多步指令和代码。内部盲测说比 Anthropic 的 Sonnet 4.6 更受偏爱，但看公开跑分，大概跟 DeepSeek V3.2 打个平手。

微软强调模型是从干净数据从头训练的，不是拿别人模型蒸馏出来的。同时发布的还有 MAI-Flash-2（主打轻量快速）、MAI-Vision-2（多模态）、MAI-Coder-2（代码生成）和三个微调版本。

有意思的是，微软 AI 负责人 Mustafa Suleyman 在大会上放话，说微软必须从零开始证明自己能独立搞定所有事。这跟之前微软和 OpenAI 的合作关系形成鲜明对比——两家公司从紧密合作伙伴转向直接竞争。但文章没透露具体产品路线图和时间表，Suleyman 也没给出任何性能数据或客户案例来支撑这个说法，更像一次公开表态而非产品发布。

我会先打个折：万亿参数听起来唬人，但每次激活只有 350 亿，实际推理成本可能比想象中低。跑分跟 DeepSeek V3.2 打平，说明微软在推理模型上还在追，没到领先的地步。这一把更像是微软在说“我们也能自己做”，但能不能追上 OpenAI 和 Anthropic，还得看后续迭代。

Suno 拿了 4 亿美元，估值冲到 54 亿，但没公布谁投的、钱怎么花

AI 音乐生成公司 Suno 宣布完成 4 亿美元 D 轮融资，投后估值 54 亿美元。官方公告没披露领投方、跟投方和资金具体用途，只说会继续让更多人玩上音乐创作。

这条我会先打个折——金额和估值数字很大，但缺少任何业务数据或商业化进展。Suno 没公布用户数、收入、付费转化率，也没说这 4 亿美元是用于研发、市场推广还是版权谈判。AI 音乐生成领域版权风险一直是个大问题，Suno 之前也面临过唱片公司的诉讼。

不过从融资节奏看，AI 音乐生成赛道还在升温。Suno 上一轮是 2024 年的 1.25 亿美元，估值 5 亿美元，一年多时间估值翻了十倍。这说明投资人对 AI 音乐生成这个方向还是有信心的，只是具体到 Suno 这家公司，我们暂时只能当融资信号看。

优步给员工每月每款 AI 工具设了 1500 美元上限

优步给每位员工每月每款 AI 编程工具（比如 Cursor 或 Claude Code）的 token 消耗设了 1500 美元 上限，不同工具额度独立。这个数字相当于优步美国软件工程师年薪中位数（33 万美元）的 11% 左右。

作者 Simon Willison 自己每月在 Anthropic 和 OpenAI 上各花约 1000 美元 token，但个人订阅有补贴，实际只付 100 美元左右。他算了一笔账：如果按每人用两款工具算，年上限 3.6 万美元，对一家大公司来说不算离谱，但对初创公司可能是个负担。

这条有意思的地方在于，它给 AI 工具定价提供了一个行业参考信号。之前大家都在猜企业愿意为 AI 编程工具花多少钱，优步这个数字相当于给出了一个锚点。1500 美元一个月，对个人开发者来说挺多，但对年薪 33 万美元的工程师来说，如果真能提升 10% 的效率，这笔账是算得过来的。

Cloudflare 数据显示机器人流量首次超过人类

Cloudflare Radar 统计了 5 月 28 日到 6 月 4 日这一周的全球流量，发现所有 HTML 网页请求里，57.5% 来自爬虫、AI 抓取和自动化脚本，真人浏览器只占 42.5%，这是机器人流量头一回超过人类。

如果把所有 HTTP 返回内容都算上，JSON 格式（主要是机器对机器的 API 通信）占了 33.1%，排第一，HTML 只占 28.5%。这说明互联网的流量结构正在发生根本性变化——越来越多的请求是机器发起的，而不是人在点网页。

但这里要打个折：这是 HTML 请求口径，不是全网流量。很多视频流、下载流量不在这个统计里。而且 Cloudflare 的客户群体偏向技术公司，可能放大了机器人流量的比例。别直接理解成“互联网被机器人统治了”，但趋势是明确的——AI 抓取和自动化脚本正在成为互联网流量的主要来源。

联合国报告：到 2030 年，AI 数据中心的用电和用水量都要翻倍

联合国大学一份新报告算了笔账：去年全球数据中心用了 448 太瓦时 电，比沙特全国用电还多，其中 AI 算力占五分之一；水用了 4.5 万亿升，够撒哈拉以南非洲 6 亿多人用。到 2030 年，这些数字预计全部翻倍——电涨到 945 太瓦时（相当于日本全国用电），水涨到 9.3 万亿升，碳排放也会从 1.89 亿吨 跳到 3.99 亿吨。

报告主笔人提醒，大家老把 AI 当纯软件看，但它背后是实打实的物理基础设施。数据中心选址、冷却技术、能源结构都会影响最终的环境成本。

不过报告没提技术进步可能带来的能效提升。过去几年芯片能效一直在提高，模型推理成本也在下降。如果这个趋势持续，实际用电量可能比预测低。但即使打折，AI 的能源消耗确实在快速增长，这是行业需要面对的问题。

今日小信号

Hugging Face 把自家命令行工具改成了“人机双模”：智能体调用时自动切 TSV 格式，省 token 效果明显，但测试只跑了自家任务，通用性存疑。
Anthropic 公开了内部用 Claude 做自助数据分析的完整方案，95% 的查询准确率挺高，但这是自家模型跑自家数据，别人复现效果要打折。
Miso One 放出了一个 8B 参数的开源 TTS 模型，110ms 延迟，一次语音克隆，开源 TTS 又多一个能自己部署的选择。但正文没提中文效果和克隆保真度，先别太激动。
Cursor 企业版新增 Organizations 顶层管理结构，一个后台管多个团队，支持独立预算、安全策略、模型权限和用量监控。亮点是 Groups 用户组，跨团队分配权限，不用建新团队。
李飞飞 团队给“世界模型”做了个功能分类，核心是 POMDP 框架，把市面上叫世界模型的系统分成渲染器、模拟器、推理器。概念分类有用，但没给具体模型和分数，别当评测看。