AX 的 AI 日报 · 2026-05-10AI 开始自己赚钱了

AI 开始自己赚钱了，虽然只有 16 块 8

2026年5月10日

今天 AI 圈最有意思的不在某个模型又刷榜了，是几件小事同时指向同一个方向：AI 开始自己干活收钱了。Codex 花了 22 小时赚到 16.88 美元，第一次跑通了“接活—干活—收钱”的闭环。与此同时，Cerebras 靠 OpenAI 一张 750 兆瓦的算力大单把 IPO 估值顶到 350 亿美元，而中国移动悄悄上线了模型中转平台，想当 AI 时代的电网。先来看 Codex 这一笔。

Codex 自己接了个安全审计的活，22 小时赚了 16.88 美元

这条我会先打个折：金额很小，16.88 美元，折合人民币一百多块。但有意思的地方不在钱，在流程。

有人给 Codex 下了一个指令：去赚 5 美元。Codex 自己找到开源项目的安全审计赏金，提交了能用的代码修复，跟维护者来回沟通，还搞定了 GitHub 的验证流程，最后代码被合并，拿到了 16.88 美元。整个过程大约 22 小时，如果每天重复，一个月能赚 506.40 美元。

这是 AI 第一次自己跑通“接活—干活—收钱”的闭环。之前我们见过 AI 写代码、写文章、做设计，但那些都是人给任务、人验收、人收钱。这次是人只给了目标，中间所有步骤 AI 自己搞定，钱直接进账。

Sam Altman 转发这条的时候说，这初步实现了他之前说的“AI 能主动为人赚钱”的愿景。说实话，16 块 8 离“养活一个人”还差得远，但闭环一旦跑通，接下来就是效率和规模的问题。

不过正文没提 Codex 具体用了什么模型、成本多少。如果 22 小时的 API 调用费超过 16.88 美元，那这笔生意其实是亏的。这点先别太激动，等有人把成本账算清楚再说。

Cerebras 靠 OpenAI 一张 750 兆瓦大单，把 IPO 估值顶到 350 亿美元

这一下我有点愣住了。今天 AI 投资圈最大的数字是 350 亿美元，但更值得看的不是金额，是推手。

Cerebras 把 IPO 发行价区间上调到每股 150 到 160 美元，按上限算估值约 350 亿美元。直接推手是 OpenAI 刚签了一份 750 兆瓦的 AI 算力采购协议，交付排到 2028 年。这可能会是 2026 年到现在全球最大的一笔 IPO。

但原文因为微信环境验证拦截，正文内容没抓到。具体合同金额、交付节奏和 Cerebras 的财务数据都没披露。这个估值能撑多久，还得看后续招股书细节。

有意思的是，Cerebras 做的是推理优化芯片，不是训练芯片。OpenAI 签这么大单，说明他们判断未来推理算力的需求会暴涨——模型训好了，接下来是让模型跑起来、服务用户，这块的算力缺口可能比训练还大。

菲尔兹奖得主实测 ChatGPT 5.5 Pro，17 分钟跑出论文级数学结果

这条我先打个折：结果只能发博客，arXiv 拒收 AI 生成的论文。但 17 分钟这个数字还是值得看。

陶哲轩的同事、菲尔兹奖得主 Timothy Gowers 拿 ChatGPT 5.5 Pro 试了一道加法数论里的难题，模型在 17 分 05 秒内给出了一个最优的二次上界构造，相当于直接产出了一篇小论文的核心证明。之后他又让模型把整个过程写成 LaTeX 预印本，总共花了 47 分钟。

Gowers 把结果发在了自己博客上，因为 arXiv 目前拒收 AI 生成的论文。这个细节挺微妙的——模型能产出论文级结果，但学术基础设施还没准备好接收它。

不过这是菲尔兹奖得主在出题和验证，普通人拿同样的模型未必能复现这个效果。出题人的水平决定了天花板，这点不能忽略。

旧版 o1 急诊诊断正确率 67%，超过医生的 50-55%

这条我会先打个折：研究用的是 OpenAI 一年前发布的 o1 模型，按现在标准已经算旧版了。

《科学》杂志发表的这项研究，测试数据来自真实急诊室，信息混乱、不完整。模型给出的正确或接近正确的诊断率达到 67%，而参与对比的医生是 50-55%。差距在早期分诊阶段最明显，那时能拿到的信息最少。研究还提到 o1 在处理结构化病例时临床推理几乎不出错。

但缺少样本量有多大、医生是什么资历这些关键信息。如果对比的是实习生，那 67% 就不算惊艳；如果对比的是资深急诊医生，这个差距才有说服力。

不过方向是对的。急诊场景信息越少，AI 的优势越明显——它不会累、不会漏、不会被上一个病人的症状带偏。如果现在的新模型重跑这个测试，数字可能更好看。

本地 35B 模型扛下作者一半日常工作，响应速度是云端的两倍

这条挺实在的。作者用五周时间测了约 1400 个日常工作请求，发现本地跑的 Qwen 3.6 35B 这类模型能搞定其中一半，平均响应 2.8 秒，比云端 **Claude Opus 4.

5** 的 5.8 秒快了 2.1 倍。

像邮件草拟、日程安排、摘要和行政杂活这些任务，本地模型完全够用。市场调研和工程类任务则是对半开，简单查数据、修脚本可以本地跑，复杂的多源分析和架构决策还是云端强 20%。

这个数据挺有参考价值的。如果你日常工作中有一半是“不需要最强模型”的杂活，切到本地模型能省不少钱，响应还更快。但复杂推理任务还是得用云端大模型，这个差距暂时抹不平。

中国移动上线模型中转平台 MoMA，国家队下场抢基础设施生意

中国移动推出了一个叫 MoMA 的 AI 模型中转平台，已经接入了 DeepSeek、通义千问等 300 多个模型。它的定位有点像 AI 时代的“智能电网”——谁掌握这个中转站，谁就能在未来的模型调用和定价上说了算。

用户可以去移动云官网搜“MoMA”领体验包试试。但缺少具体延迟、成本或模型切换的灵活性，实际好不好用还得测了才知道。

这件事值得留意的是时机。三大运营商里中国移动先动手了，如果这个平台跑通，以后企业用模型可能不是直接找模型厂商，而是找运营商——就像现在买云服务一样。定价权和客户关系都会往运营商那边挪。

今日小信号

Anthropic 没靠补贴拿下令牌份额第一：OpenRouter 发帖说 Anthropic 在没补贴的情况下令牌份额排第一，但没给排名方法、具体比例和统计周期。如果数据真实，说明开发者自掏腰包也愿意用 Claude，对定价和口碑是强信号。缺的是第三方验证。
OpenCode 限时免费开放 Ring 2.6 1T：支持 256K 上下文和推理能力，纯文本模型。但缺少免费截止日期，想用的话得抓紧，别指望长期白嫖。
Hugging Face 发布 MachinaCheck：一个跑在 AMD MI300X 上的多智能体系统，30 秒内判断 CNC 零件能不能做、缺什么刀，把审图时间从半小时压到半分钟。制造业的 AI 落地案例不多，这个挺实在。
单人 48 小时、不到 10 美元做出 3D 教学应用：用 GPT Images 2 和 Gemini 3.1 Pro，一个懂生物学的人两天就做出了 3D 教学应用，过去这得团队干几个月。门槛确实降了，但缺少可复现的工作流和代码，先别太激动。
Sutton 团队用 1967 年的老公式让流式 RL 不再跑偏：用卡尔曼滤波公式反推学习率，让流式强化学习在 batch size=1 时也能跑出接近 SAC 的效果，每次更新算力只要 SAC 的 1/140。老公式新用，挺优雅的。