AI 开始自己赚钱了,虽然只有 16 块 8
今天 AI 圈最有意思的不在某个模型又刷榜了,是几件小事同时指向同一个方向:AI 开始自己干活收钱了。Codex 花了 22 小时赚到 16.88 美元,第一次跑通了“接活—干活—收钱”的闭环。与此同时,Cerebras 靠 OpenAI 一张 750 兆瓦的算力大单把 IPO 估值顶到 350 亿美元,而中国移动悄悄上线了模型中转平台,想当 AI 时代的电网。先来看 Codex 这一笔。
Codex 自己接了个安全审计的活,22 小时赚了 16.88 美元
这条我会先打个折:金额很小,16.88 美元,折合人民币一百多块。但有意思的地方不在钱,在流程。
有人给 Codex 下了一个指令:去赚 5 美元。Codex 自己找到开源项目的安全审计赏金,提交了能用的代码修复,跟维护者来回沟通,还搞定了 GitHub 的验证流程,最后代码被合并,拿到了 16.88 美元。整个过程大约 22 小时,如果每天重复,一个月能赚 506.40 美元。
这是 AI 第一次自己跑通“接活—干活—收钱”的闭环。之前我们见过 AI 写代码、写文章、做设计,但那些都是人给任务、人验收、人收钱。这次是人只给了目标,中间所有步骤 AI 自己搞定,钱直接进账。
Sam Altman 转发这条的时候说,这初步实现了他之前说的“AI 能主动为人赚钱”的愿景。说实话,16 块 8 离“养活一个人”还差得远,但闭环一旦跑通,接下来就是效率和规模的问题。
不过正文没提 Codex 具体用了什么模型、成本多少。如果 22 小时的 API 调用费超过 16.88 美元,那这笔生意其实是亏的。这点先别太激动,等有人把成本账算清楚再说。
Cerebras 靠 OpenAI 一张 750 兆瓦大单,把 IPO 估值顶到 350 亿美元
这一下我有点愣住了。今天 AI 投资圈最大的数字是 350 亿美元,但更值得看的不是金额,是推手。
Cerebras 把 IPO 发行价区间上调到每股 150 到 160 美元,按上限算估值约 350 亿美元。直接推手是 OpenAI 刚签了一份 750 兆瓦的 AI 算力采购协议,交付排到 2028 年。这可能会是 2026 年到现在全球最大的一笔 IPO。
但原文因为微信环境验证拦截,正文内容没抓到。具体合同金额、交付节奏和 Cerebras 的财务数据都没披露。这个估值能撑多久,还得看后续招股书细节。
有意思的是,Cerebras 做的是推理优化芯片,不是训练芯片。OpenAI 签这么大单,说明他们判断未来推理算力的需求会暴涨——模型训好了,接下来是让模型跑起来、服务用户,这块的算力缺口可能比训练还大。
菲尔兹奖得主实测 ChatGPT 5.5 Pro,17 分钟跑出论文级数学结果
这条我先打个折:结果只能发博客,arXiv 拒收 AI 生成的论文。但 17 分钟这个数字还是值得看。
陶哲轩的同事、菲尔兹奖得主 Timothy Gowers 拿 ChatGPT 5.5 Pro 试了一道加法数论里的难题,模型在 17 分 05 秒内给出了一个最优的二次上界构造,相当于直接产出了一篇小论文的核心证明。之后他又让模型把整个过程写成 LaTeX 预印本,总共花了 47 分钟。
Gowers 把结果发在了自己博客上,因为 arXiv 目前拒收 AI 生成的论文。这个细节挺微妙的——模型能产出论文级结果,但学术基础设施还没准备好接收它。
不过这是菲尔兹奖得主在出题和验证,普通人拿同样的模型未必能复现这个效果。出题人的水平决定了天花板,这点不能忽略。
旧版 o1 急诊诊断正确率 67%,超过医生的 50-55%
这条我会先打个折:研究用的是 OpenAI 一年前发布的 o1 模型,按现在标准已经算旧版了。
《科学》杂志发表的这项研究,测试数据来自真实急诊室,信息混乱、不完整。模型给出的正确或接近正确的诊断率达到 67%,而参与对比的医生是 50-55%。差距在早期分诊阶段最明显,那时能拿到的信息最少。研究还提到 o1 在处理结构化病例时临床推理几乎不出错。
但缺少样本量有多大、医生是什么资历这些关键信息。如果对比的是实习生,那 67% 就不算惊艳;如果对比的是资深急诊医生,这个差距才有说服力。
不过方向是对的。急诊场景信息越少,AI 的优势越明显——它不会累、不会漏、不会被上一个病人的症状带偏。如果现在的新模型重跑这个测试,数字可能更好看。
本地 35B 模型扛下作者一半日常工作,响应速度是云端的两倍
这条挺实在的。作者用五周时间测了约 1400 个日常工作请求,发现本地跑的 Qwen 3.6 35B 这类模型能搞定其中一半,平均响应 2.8 秒,比云端 **Claude Opus 4.
5** 的 5.8 秒快了 2.1 倍。
像邮件草拟、日程安排、摘要和行政杂活这些任务,本地模型完全够用。市场调研和工程类任务则是对半开,简单查数据、修脚本可以本地跑,复杂的多源分析和架构决策还是云端强 20%。
这个数据挺有参考价值的。如果你日常工作中有一半是“不需要最强模型”的杂活,切到本地模型能省不少钱,响应还更快。但复杂推理任务还是得用云端大模型,这个差距暂时抹不平。
中国移动上线模型中转平台 MoMA,国家队下场抢基础设施生意
中国移动推出了一个叫 MoMA 的 AI 模型中转平台,已经接入了 DeepSeek、通义千问等 300 多个模型。它的定位有点像 AI 时代的“智能电网”——谁掌握这个中转站,谁就能在未来的模型调用和定价上说了算。
用户可以去移动云官网搜“MoMA”领体验包试试。但缺少具体延迟、成本或模型切换的灵活性,实际好不好用还得测了才知道。
这件事值得留意的是时机。三大运营商里中国移动先动手了,如果这个平台跑通,以后企业用模型可能不是直接找模型厂商,而是找运营商——就像现在买云服务一样。定价权和客户关系都会往运营商那边挪。
今日小信号
- Anthropic 没靠补贴拿下令牌份额第一:OpenRouter 发帖说 Anthropic 在没补贴的情况下令牌份额排第一,但没给排名方法、具体比例和统计周期。如果数据真实,说明开发者自掏腰包也愿意用 Claude,对定价和口碑是强信号。缺的是第三方验证。
- OpenCode 限时免费开放 Ring 2.6 1T:支持 256K 上下文和推理能力,纯文本模型。但缺少免费截止日期,想用的话得抓紧,别指望长期白嫖。
- Hugging Face 发布 MachinaCheck:一个跑在 AMD MI300X 上的多智能体系统,30 秒内判断 CNC 零件能不能做、缺什么刀,把审图时间从半小时压到半分钟。制造业的 AI 落地案例不多,这个挺实在。
- 单人 48 小时、不到 10 美元做出 3D 教学应用:用 GPT Images 2 和 Gemini 3.1 Pro,一个懂生物学的人两天就做出了 3D 教学应用,过去这得团队干几个月。门槛确实降了,但缺少可复现的工作流和代码,先别太激动。
- Sutton 团队用 1967 年的老公式让流式 RL 不再跑偏:用卡尔曼滤波公式反推学习率,让流式强化学习在 batch size=1 时也能跑出接近 SAC 的效果,每次更新算力只要 SAC 的 1/140。老公式新用,挺优雅的。