ax@ax-radar:~/daily/2026-05-23 $ cat newsletter/daily/2026-05-23.md
41 srcsignal 72%cycle 04:32
AX 的 AI 日报 · 2026-05-23估值狂飙,落地账单变真实

Anthropic 估值冲 9000 亿,但今天 AI 圈在算另一笔账

今天 AI 圈最大的数字是 300 亿美元——Anthropic 的新一轮融资最快下周敲定,估值可能冲到 9000 亿,直接反超 OpenAI。但更有意思的是另一头:微软自己算了笔账,发现用 AI 跑某些任务比雇人还贵;Flask 作者用 AI 开发项目,83% 的 issue 是 AI 生成的"专业废话"。一边是估值狂飙,一边是落地账单开始变真实。先来看 Anthropic 这一笔。

Anthropic 估值冲 9000 亿,但领投方和条款都还没说

这一下我有点愣住了——今天 AI 投资圈最大的数字是 300 亿美元,但更值得看的不是金额,是信息缺口有多大。

彭博社援引知情人士消息,Anthropic 的新一轮融资最快下周敲定,总额预计超过 300 亿美元,公司估值可能突破 9000 亿美元,直接超过 OpenAI。这轮融资推进很快,几周内就从收到提案走到了谈判尾声。公司同时给出了很猛的收入预期:第二季度营收 109 亿美元,比上季度翻了一倍多,并且有望首次实现季度盈利;年化收入预期冲到 440 亿美元

但我会先打个折。领投方是谁、具体条款怎么定、估值怎么算出来的,这些关键信息全都没披露。9000 亿美元这个数字如果坐实,Anthropic 将成为全球估值最高的 AI 初创公司,但缺少领投方意味着这轮可能还在拼盘阶段,或者条款还没锁死。

有意思的是,就在融资消息传出的同一天,Anthropic 的 Opus 4.8 和神秘项目 Mythos 1 也被提前扒出来了。Opus 4.8 的名字出现在 Google Vertex AI 平台上,同时一份 **59.

8MB** 的 Claude Code 源码映射文件泄露,里面 51.2 万行 TypeScript 代码不仅提到了 Sonnet 4.8,还带出了 Mythos 1 的线索。Mythos 1 看起来和 Claude 的某种新能力或新架构有关,但官方一个字都没说。

这两件事放在一起看,Anthropic 在同时推进三张牌:融资冲估值、模型迭代、以及一个还没公开的新项目。但信息全来自泄露和匿名消息源,先别太激动。

微软自己算账:用 AI 跑某些任务,比雇人还贵

这条我觉得挺实在的。微软在一份报告里直接对比了两种成本:用 token 计费调用模型、用 agent 跑业务流程,以及雇人干同样的活。结论是,在这些特定场景下,AI 的综合开销已经超过了人工工资。

报告没展开讲具体是什么任务、人力成本按哪个市场算的,但至少说明一件事:现在企业上 AI,不是闭着眼就能省钱。token 计费看起来单价低,但 agent 跑复杂流程时调用次数会爆,再加上集成、监控、纠错这些隐性成本,总账可能比雇一个人还贵。

这和另一条消息对上了。奥纬咨询的研究发现,74% 的 CEO 已冻结或缩减招聘,计划削减初级岗位的比例从 17% 跃升至 43%。但报告同时警告,超 90% 的企业在部署 AI,多数仍处试点阶段,过快裁员可能对人才梯队造成长远风险。

两笔账放在一起看:企业想用 AI 省钱,但实际账单比预期高;同时又在砍初级岗位,但 AI 还接不住所有活。这个错位短期内不会消失。

Flask 作者用 AI 开发项目,83% 的 issue 是"专业废话"

这条让我停下来想了一会儿。Flask 作者 Armin Ronacher 用 AI 开发 Pi 项目时发现,项目 issue 里 83% 被自动关闭,因为大量 AI 生成的报告虽然行文专业、推理自洽,但结论是错的。

问题不在 AI 代码质量差,而在于很多老手还在用过去的直觉判断 AI 输出。人类的错误有迹可循——经验丰富的开发者能识别出典型的思维盲区或逻辑跳跃。但 AI 会在一个错误假设上推导出一整套看似滴水不漏的方案,老手的经验识别系统反而会被这种自洽的胡说骗到。

Ronacher 的原话是:你编程十年,但在 AI 面前还是个新手。这句话不是在说 AI 有多强,而是在说判断 AI 输出的能力需要从头练起。老手的经验在识别人类错误时好用,但 AI 的失败模式完全不同——它不会犯低级语法错误,却会在一个微妙的前提上构建一整栋逻辑大厦,然后整栋楼都是歪的。

26M 参数模型在 CPU 上跑工具调用,比 0.6B 模型快 4.4 倍

这条让我有点意外。Reddit 用户 gvij4 核 CPU 测了 Needle 26MQwen3-0.6B50 次工具调用上的表现。Needle 工具匹配准确率 **72.

0%**,平均延迟 10.9 秒;Qwen3 准确率 56.0%,延迟 47.9 秒

参数少 23 倍,准确率高出 16 个百分点,速度快 4.4 倍。这说明小模型做工具调用不一定输给大模型,架构和训练方式可能比参数量更重要。

但测试仅 50 次查询,样本太少,统计意义有限。而且缺少各难度等级的具体结果,高难度下差距可能缩小。这条先当信号看:小模型在特定任务上可以很能打,但别急着下结论说大模型在工具调用上没优势。

llama.cpp 自带 8 个本地工具,但还没做安全沙箱

llama.cpp 的 server 端多了一个实验性的 --tools 参数,一口气给了 8 个内置工具:read_filefile_glob_searchgrep_searchexec_shell_commandwrite_fileedit_fileapply_diffget_datetime

直接看,就是让跑在本地的模型能直接读文件、搜内容、执行 shell 命令,不用再外挂 MCP 了。这对本地开发场景挺实用——你可以在自己的机器上让模型直接操作文件系统,省掉中间层的配置和延迟。

但官方明确说了,目前还没做安全沙箱,文件操作和命令执行都没有白名单限制。这会让模型如果产生错误或恶意指令,会直接在宿主机上执行。先别在生产环境里用,等沙箱上了再说。

阶跃星辰发 StepAudio 2.5:能听懂语气和停顿,还支持自定义人格

阶跃星辰发了 StepAudio 2.5 实时语音模型,不只是把语音转成文字再回复,它会捕捉你说话时的语气、语速、停顿甚至微表情这些"副语言"信息。你可以通过 API 给它设定人格、背景故事和说话风格,官方说原生人格选项超过 一万种,组合起来能有数百万种特征。产品内置了 5 个预设人格可以直接试,并且用 RLHF 做了调优,在复杂的角色扮演压力测试里也能保持人设不崩。

听起来挺有意思,但缺了关键信息:延迟多少、成本怎么算、实际测试数据在哪。语音交互对延迟极其敏感,超过 300 毫秒用户就会觉得卡。没给延迟数字,先当 demo 看。

今日小信号

  • Replit Agent 接上 Squidler:用自然语言描述功能,Agent 自动生成应用并部署,Squidler 像真人一样点来点去测 bug,测出问题再自动丢回给 Agent 修。全程不用写一行测试脚本。但缺少这套流程跑一轮要多久、测试覆盖率有多高。
  • Mistral 收购 Emmi AI:补 30 多人的物理仿真和数字孪生团队,想做工业 AI。30 人不大,但工业场景关键人才比人数重要。缺少收购金额和具体落地客户。
  • DeepSeek 要把旗舰模型打 75 折变成永久价:Bloomberg 发了条简短消息,但没说是哪个模型、原价多少、折后多少、什么时候生效。信息缺口太大,先当抢市场信号看。
  • 视觉模型直接读 PDF 做问答,准确率垫底还更贵:用 Claude Sonnet 4.5 直接看 PDF 画面,准确率只有 52.0%,在六套方案里排第五,每次查询成本 0.2552 美元。先用 OCR 转文字再问答的方案准确率更高、成本更低。这条路线目前不划算。
  • 飞书接本地 Claude Code 已开源:在飞书发消息,转成 prompt 传给本机 Claude Code CLI 执行,结果流式同步回飞书。挺实用,但注意 6 月 15 日claude -p 模式要单独计费,成本会涨。

更多

频道

后台