ax@ax-radar:~/daily/2026-05-03 $ cat newsletter/daily/2026-05-03.md
41 srcsignal 72%cycle 04:32
AX 的 AI 日报 · 2026-05-03数字很猛,缺口很大

Claude Code 让 Anthropic 两个月收入翻倍,但别急着信

今天 AI 圈最炸裂的数字来自 Anthropic:年化收入冲到 440 亿美元,两个月翻了一倍,Claude Code 一个编程助手就贡献了 25 亿。但这条我会先打个折——数据来源是 Semi Analysis 的报告,正文被微信吞了,客户留存和利润结构都看不到。另一边,DeepMind 拿 AI 啃了 700 道数学难题,结果有一题题干是错的,AI 还硬写了几十页证明。先来看 Anthropic 这笔账。

Anthropic 两个月收入翻倍,但数字背后缺了关键几页

这条我会先打个折。Semi Analysis 的报告说 Anthropic 年化收入冲到 440 亿美元,过去 12 个月净增了 350 亿,其中 Claude Code 这个编程助手到 2026 年 2 月自己就贡献了 25 亿美元年化收入。推理毛利率也从 38% 涨到了 70% 以上。

数字很猛,但问题出在信息缺口上。正文因为微信环境异常没抓到,我们看不到客户留存率、合同结构、一次性大单占比这些关键指标。440 亿这个数字是年化推算还是实际签单额?25 亿的 Claude Code 收入是订阅费还是企业授权?毛利率从 38% 跳到 70% 是技术优化还是会计口径变了?这些都不知道。

不过方向是对的。Claude Code 的增长逻辑跟 GitHub Copilot 早期很像——编程助手是开发者每天打开的工具,粘性极高。如果 Anthropic 真能把这块做深,25 亿可能只是起点。但前提是产品别出 bug。

说到 bug,Anthropic 自己复盘了 Claude Code 最近变笨的原因,点出三个问题:推理强度被改动、缓存优化出了错、系统提示词有长度限制。视频标题只给了结论,没给复现步骤和修复时间线。一个年化 25 亿的产品因为三个工程问题性能回退,说明 AI 审 AI 代码这件事在工程约束下还是容易踩坑。

有意思的是,Anthropic 的吸引力不只体现在收入上。过去一年多,至少六位从 WorkdayYou.comBoxSuper.com 等百亿公司离职的 CTO,跑去 Anthropic 当个人贡献者写代码。机器之心想盘点这事,但微信页面又被环境异常拦截了。从英文摘要看,核心讨论点不是"为了 AGI 理想",而是职业杠杆——在大模型公司当一线工程师,比在传统 SaaS 公司当 CTO 更值钱。

DeepMind 拿 AI 啃数学难题,结果题干错了,AI 还硬写了几十页

这条挺离谱的。Google DeepMind 搞了个叫 Aletheia 的流程,拿 Gemini Deep Think 去啃 700 道 Erdős 数学猜想。流程是先让模型生成 200 个候选答案,再用验证器筛到 63 个,最后产出 13 个原创解答。

乌龙出在 Erdős-75 这道题上:题干本身就有问题,但 Aletheia 没发现,照样洋洋洒洒推导了几十页。这比答错更暴露问题——它不会质疑前提。人类数学家看到一道题,第一反应往往是"这个条件合理吗",但模型直接跳进了求解模式。

这不是 DeepMind 第一次在数学上搞大动作,但这次暴露的"不会质疑"是个系统性问题。如果模型在数学题上不会说"你这题出错了",那在更模糊的现实任务里,它更不可能主动指出你的需求本身有问题。

斯坦福用 AI 从零设计出全新病毒,16 个真能干活

斯坦福和 Arc 研究所的研究人员用他们训练的模型 Evo,直接生成了 302 个噬菌体基因组,其中 16 个成功感染了大肠杆菌、完成自我复制并最终裂解了宿主细胞。这相当于 AI 不靠自然界已有的病毒模板,凭空造出了能干活的新病毒。

Evo 模型基于 StripedHyena 2 架构,一次能处理 100 万个碱基对的长序列。后续的 Evo-Φ69 版本还有更多改进,但正文被微信屏蔽了,具体方法看不到。

这件事的意义不在"造病毒"本身,而在验证了一个方向:AI 可以在序列空间里做真正的 de novo 设计,不依赖进化已有的模板。这对合成生物学是个信号——以后设计新蛋白、新代谢通路,可能不需要从自然界找起点。

一台 5 年老笔记本跑通 35B 模型,插电 23 token/秒

这条挺实在的。Reddit 用户 abhinand05 在一台 5 年前的华硕 ROG Zephyrus G14 上跑起了 Qwen3.6-35B-A3B 模型。这台笔记本只有 RTX 2060 Max-Q 6GB 显存,搭配 24GB DDR4 内存和 Ryzen 7 处理器。插电时生成速度约 23 token/秒,不插电掉到 10 token/秒出头。

能跑起来的关键是混合推理策略:MoE 层交给 CPU 处理,密集层跑在 GPU 上,再加上投机解码减少等待时间。6GB 显存跑 35B 模型,放两年前想都不敢想。

不过别急着激动。23 token/秒是插电峰值,实际用起来可能因为散热降频掉到 15 左右。而且这只是推理速度,模型加载和首次推理的延迟没提。但方向很明确:本地跑大模型的门槛在快速下降。

Intel 和 AMD 联手推新指令集,纸面算力翻 16 倍,但没硬件

Intel 和 AMD 公布了 ACE 指令扩展,用 2D 瓦片寄存器和外积算法,每时钟周期能做 1024 次乘法,对比现在 AVX 的 64 次,纸面吞吐量直接翻了 16 倍

但先别太激动——目前没有任何 ACE 硬件上市,功耗、发热、实际应用场景都没公布。这更像是一份技术路线图,告诉市场"x86 还没放弃 AI 推理这块"。Reddit 原文被屏蔽了,看不到社区讨论细节。

另一条硬件优化的消息更接地气:有论文提出用低成本 FPGA 跑 Qwen3-30B-A3B 的 Q4 量化版,生成速度能到 18 token/秒,板子带 24GB 显存,作者说量产成本能压到 150 美元左右。但缺少具体芯片型号和功耗数据,先打七折看。

哈佛说大模型急诊诊断比医生准,但没说是哪个模型

哈佛医学院和贝斯以色列女执事医疗中心在《科学》杂志发了篇论文,拿大语言模型和急诊室医生比诊断准确率。结果至少有一个模型的表现超过了人类医生。

但报道没提具体是哪个模型、测了多少病例、准确率数字是多少,也没说医生资历和评判标准。结论方向有意思,细节先打五折。

Gary Marcus 的博客也提到,一项新综述研究指出,尽管大语言模型在医疗领域应用越来越广,但目前尚无明确证据表明其直接改善了患者治疗结果——在治愈率、死亡率、生活质量这些硬指标上,还没有统计学上的显著积极影响。

这两条放一起看,结论很清晰:模型在受控测试里能赢医生,但进了真实医院还没证明能救人。

今日小信号

  • 迪士尼员工 9 天狂调 Claude 46 万次:平均每天超 5 万次,频率高到像在跑自动化任务。另一组数字是 Meta 一个月烧掉 60 万亿 token,按公开 API 价格算大概值 90 亿美元,但实际内部成本肯定低得多。正文被微信拦截,原始数据表没披露,数字先打七折。

  • Runway 推出实时视频角色系统:从单张图片生成能实时对话的视频角色,口型、表情、头部运动全同步。核心突破是每帧仅 37 毫秒处理时间,响应延迟 1.75 秒。同时他们开源了 NCCLBack 系统,通过 GPU 间 P2P 权重传输把模型冷启动从几分钟压到几秒。

  • 港理工开源手语翻译模型 SignThought:不依赖人工标注的中间层,直接看视频出文字,在五个数据集上拿了最高分,中了 ACL 2026 主会。但正文被微信验证页挡住了,具体效果和限制看不到。

  • 黄仁勋怼 Anthropic CEO:Dario Amodei 预测 AI 会取代 50% 入门白领岗位,黄仁勋公开批评"别一当老板就开上帝视角"。缺少黄仁勋拿出了什么量化反证,但核心意思很直接:CEO 别坐在高位拍数字。

  • 给 AI 代理配了本技能黄页:Upskill 开源了一个技能注册表,索引了超过 1 万个技能,代理干活前先查有没有现成工具。搜索靠 Postgres 全文检索加向量匹配,入库时有对抗性审查拦下了几百个恶意技能。开源、免费,但正文被 Reddit 拦了。

更多

频道

后台