AX 的 AI 日报 · 2026-05-03数字很猛，缺口很大

Claude Code 让 Anthropic 两个月收入翻倍，但别急着信

2026年5月3日

今天 AI 圈最炸裂的数字来自 Anthropic：年化收入冲到 440 亿美元，两个月翻了一倍，Claude Code 一个编程助手就贡献了 25 亿。但这条我会先打个折——数据来源是 Semi Analysis 的报告，正文被微信吞了，客户留存和利润结构都看不到。另一边，DeepMind 拿 AI 啃了 700 道数学难题，结果有一题题干是错的，AI 还硬写了几十页证明。先来看 Anthropic 这笔账。

Anthropic 两个月收入翻倍，但数字背后缺了关键几页

这条我会先打个折。Semi Analysis 的报告说 Anthropic 年化收入冲到 440 亿美元，过去 12 个月净增了 350 亿，其中 Claude Code 这个编程助手到 2026 年 2 月自己就贡献了 25 亿美元年化收入。推理毛利率也从 38% 涨到了 70% 以上。

数字很猛，但问题出在信息缺口上。正文因为微信环境异常没抓到，我们看不到客户留存率、合同结构、一次性大单占比这些关键指标。440 亿这个数字是年化推算还是实际签单额？25 亿的 Claude Code 收入是订阅费还是企业授权？毛利率从 38% 跳到 70% 是技术优化还是会计口径变了？这些都不知道。

不过方向是对的。Claude Code 的增长逻辑跟 GitHub Copilot 早期很像——编程助手是开发者每天打开的工具，粘性极高。如果 Anthropic 真能把这块做深，25 亿可能只是起点。但前提是产品别出 bug。

说到 bug，Anthropic 自己复盘了 Claude Code 最近变笨的原因，点出三个问题：推理强度被改动、缓存优化出了错、系统提示词有长度限制。视频标题只给了结论，没给复现步骤和修复时间线。一个年化 25 亿的产品因为三个工程问题性能回退，说明 AI 审 AI 代码这件事在工程约束下还是容易踩坑。

有意思的是，Anthropic 的吸引力不只体现在收入上。过去一年多，至少六位从 Workday、You.com、Box、Super.com 等百亿公司离职的 CTO，跑去 Anthropic 当个人贡献者写代码。机器之心想盘点这事，但微信页面又被环境异常拦截了。从英文摘要看，核心讨论点不是"为了 AGI 理想"，而是职业杠杆——在大模型公司当一线工程师，比在传统 SaaS 公司当 CTO 更值钱。

DeepMind 拿 AI 啃数学难题，结果题干错了，AI 还硬写了几十页

这条挺离谱的。Google DeepMind 搞了个叫 Aletheia 的流程，拿 Gemini Deep Think 去啃 700 道 Erdős 数学猜想。流程是先让模型生成 200 个候选答案，再用验证器筛到 63 个，最后产出 13 个原创解答。

乌龙出在 Erdős-75 这道题上：题干本身就有问题，但 Aletheia 没发现，照样洋洋洒洒推导了几十页。这比答错更暴露问题——它不会质疑前提。人类数学家看到一道题，第一反应往往是"这个条件合理吗"，但模型直接跳进了求解模式。

这不是 DeepMind 第一次在数学上搞大动作，但这次暴露的"不会质疑"是个系统性问题。如果模型在数学题上不会说"你这题出错了"，那在更模糊的现实任务里，它更不可能主动指出你的需求本身有问题。

斯坦福用 AI 从零设计出全新病毒，16 个真能干活

斯坦福和 Arc 研究所的研究人员用他们训练的模型 Evo，直接生成了 302 个噬菌体基因组，其中 16 个成功感染了大肠杆菌、完成自我复制并最终裂解了宿主细胞。这相当于 AI 不靠自然界已有的病毒模板，凭空造出了能干活的新病毒。

Evo 模型基于 StripedHyena 2 架构，一次能处理 100 万个碱基对的长序列。后续的 Evo-Φ69 版本还有更多改进，但正文被微信屏蔽了，具体方法看不到。

这件事的意义不在"造病毒"本身，而在验证了一个方向：AI 可以在序列空间里做真正的 de novo 设计，不依赖进化已有的模板。这对合成生物学是个信号——以后设计新蛋白、新代谢通路，可能不需要从自然界找起点。

一台 5 年老笔记本跑通 35B 模型，插电 23 token/秒

这条挺实在的。Reddit 用户 abhinand05 在一台 5 年前的华硕 ROG Zephyrus G14 上跑起了 Qwen3.6-35B-A3B 模型。这台笔记本只有 RTX 2060 Max-Q 6GB 显存，搭配 24GB DDR4 内存和 Ryzen 7 处理器。插电时生成速度约 23 token/秒，不插电掉到 10 token/秒出头。

能跑起来的关键是混合推理策略：MoE 层交给 CPU 处理，密集层跑在 GPU 上，再加上投机解码减少等待时间。6GB 显存跑 35B 模型，放两年前想都不敢想。

不过别急着激动。23 token/秒是插电峰值，实际用起来可能因为散热降频掉到 15 左右。而且这只是推理速度，模型加载和首次推理的延迟没提。但方向很明确：本地跑大模型的门槛在快速下降。

Intel 和 AMD 联手推新指令集，纸面算力翻 16 倍，但没硬件

Intel 和 AMD 公布了 ACE 指令扩展，用 2D 瓦片寄存器和外积算法，每时钟周期能做 1024 次乘法，对比现在 AVX 的 64 次，纸面吞吐量直接翻了 16 倍。

但先别太激动——目前没有任何 ACE 硬件上市，功耗、发热、实际应用场景都没公布。这更像是一份技术路线图，告诉市场"x86 还没放弃 AI 推理这块"。Reddit 原文被屏蔽了，看不到社区讨论细节。

另一条硬件优化的消息更接地气：有论文提出用低成本 FPGA 跑 Qwen3-30B-A3B 的 Q4 量化版，生成速度能到 18 token/秒，板子带 24GB 显存，作者说量产成本能压到 150 美元左右。但缺少具体芯片型号和功耗数据，先打七折看。

哈佛说大模型急诊诊断比医生准，但没说是哪个模型

哈佛医学院和贝斯以色列女执事医疗中心在《科学》杂志发了篇论文，拿大语言模型和急诊室医生比诊断准确率。结果至少有一个模型的表现超过了人类医生。

但报道没提具体是哪个模型、测了多少病例、准确率数字是多少，也没说医生资历和评判标准。结论方向有意思，细节先打五折。

Gary Marcus 的博客也提到，一项新综述研究指出，尽管大语言模型在医疗领域应用越来越广，但目前尚无明确证据表明其直接改善了患者治疗结果——在治愈率、死亡率、生活质量这些硬指标上，还没有统计学上的显著积极影响。

这两条放一起看，结论很清晰：模型在受控测试里能赢医生，但进了真实医院还没证明能救人。

今日小信号

迪士尼员工 9 天狂调 Claude 46 万次：平均每天超 5 万次，频率高到像在跑自动化任务。另一组数字是 Meta 一个月烧掉 60 万亿 token，按公开 API 价格算大概值 90 亿美元，但实际内部成本肯定低得多。正文被微信拦截，原始数据表没披露，数字先打七折。
Runway 推出实时视频角色系统：从单张图片生成能实时对话的视频角色，口型、表情、头部运动全同步。核心突破是每帧仅 37 毫秒处理时间，响应延迟 1.75 秒。同时他们开源了 NCCLBack 系统，通过 GPU 间 P2P 权重传输把模型冷启动从几分钟压到几秒。
港理工开源手语翻译模型 SignThought：不依赖人工标注的中间层，直接看视频出文字，在五个数据集上拿了最高分，中了 ACL 2026 主会。但正文被微信验证页挡住了，具体效果和限制看不到。
黄仁勋怼 Anthropic CEO：Dario Amodei 预测 AI 会取代 50% 入门白领岗位，黄仁勋公开批评"别一当老板就开上帝视角"。缺少黄仁勋拿出了什么量化反证，但核心意思很直接：CEO 别坐在高位拍数字。
给 AI 代理配了本技能黄页：Upskill 开源了一个技能注册表，索引了超过 1 万个技能，代理干活前先查有没有现成工具。搜索靠 Postgres 全文检索加向量匹配，入库时有对抗性审查拦下了几百个恶意技能。开源、免费，但正文被 Reddit 拦了。