AX 的 AI 日报 · 2026-05-23估值狂飙，落地账单变真实

Anthropic 估值冲 9000 亿，但今天 AI 圈在算另一笔账

2026年5月23日

今天 AI 圈最大的数字是 300 亿美元——Anthropic 的新一轮融资最快下周敲定，估值可能冲到 9000 亿，直接反超 OpenAI。但更有意思的是另一头：微软自己算了笔账，发现用 AI 跑某些任务比雇人还贵；Flask 作者用 AI 开发项目，83% 的 issue 是 AI 生成的"专业废话"。一边是估值狂飙，一边是落地账单开始变真实。先来看 Anthropic 这一笔。

Anthropic 估值冲 9000 亿，但领投方和条款都还没说

这一下我有点愣住了——今天 AI 投资圈最大的数字是 300 亿美元，但更值得看的不是金额，是信息缺口有多大。

彭博社援引知情人士消息，Anthropic 的新一轮融资最快下周敲定，总额预计超过 300 亿美元，公司估值可能突破 9000 亿美元，直接超过 OpenAI。这轮融资推进很快，几周内就从收到提案走到了谈判尾声。公司同时给出了很猛的收入预期：第二季度营收 109 亿美元，比上季度翻了一倍多，并且有望首次实现季度盈利；年化收入预期冲到 440 亿美元。

但我会先打个折。领投方是谁、具体条款怎么定、估值怎么算出来的，这些关键信息全都没披露。9000 亿美元这个数字如果坐实，Anthropic 将成为全球估值最高的 AI 初创公司，但缺少领投方意味着这轮可能还在拼盘阶段，或者条款还没锁死。

有意思的是，就在融资消息传出的同一天，Anthropic 的 Opus 4.8 和神秘项目 Mythos 1 也被提前扒出来了。Opus 4.8 的名字出现在 Google Vertex AI 平台上，同时一份 **59.

8MB** 的 Claude Code 源码映射文件泄露，里面 51.2 万行 TypeScript 代码不仅提到了 Sonnet 4.8，还带出了 Mythos 1 的线索。Mythos 1 看起来和 Claude 的某种新能力或新架构有关，但官方一个字都没说。

这两件事放在一起看，Anthropic 在同时推进三张牌：融资冲估值、模型迭代、以及一个还没公开的新项目。但信息全来自泄露和匿名消息源，先别太激动。

微软自己算账：用 AI 跑某些任务，比雇人还贵

这条我觉得挺实在的。微软在一份报告里直接对比了两种成本：用 token 计费调用模型、用 agent 跑业务流程，以及雇人干同样的活。结论是，在这些特定场景下，AI 的综合开销已经超过了人工工资。

报告没展开讲具体是什么任务、人力成本按哪个市场算的，但至少说明一件事：现在企业上 AI，不是闭着眼就能省钱。token 计费看起来单价低，但 agent 跑复杂流程时调用次数会爆，再加上集成、监控、纠错这些隐性成本，总账可能比雇一个人还贵。

这和另一条消息对上了。奥纬咨询的研究发现，74% 的 CEO 已冻结或缩减招聘，计划削减初级岗位的比例从 17% 跃升至 43%。但报告同时警告，超 90% 的企业在部署 AI，多数仍处试点阶段，过快裁员可能对人才梯队造成长远风险。

两笔账放在一起看：企业想用 AI 省钱，但实际账单比预期高；同时又在砍初级岗位，但 AI 还接不住所有活。这个错位短期内不会消失。

Flask 作者用 AI 开发项目，83% 的 issue 是"专业废话"

这条让我停下来想了一会儿。Flask 作者 Armin Ronacher 用 AI 开发 Pi 项目时发现，项目 issue 里 83% 被自动关闭，因为大量 AI 生成的报告虽然行文专业、推理自洽，但结论是错的。

问题不在 AI 代码质量差，而在于很多老手还在用过去的直觉判断 AI 输出。人类的错误有迹可循——经验丰富的开发者能识别出典型的思维盲区或逻辑跳跃。但 AI 会在一个错误假设上推导出一整套看似滴水不漏的方案，老手的经验识别系统反而会被这种自洽的胡说骗到。

Ronacher 的原话是：你编程十年，但在 AI 面前还是个新手。这句话不是在说 AI 有多强，而是在说判断 AI 输出的能力需要从头练起。老手的经验在识别人类错误时好用，但 AI 的失败模式完全不同——它不会犯低级语法错误，却会在一个微妙的前提上构建一整栋逻辑大厦，然后整栋楼都是歪的。

26M 参数模型在 CPU 上跑工具调用，比 0.6B 模型快 4.4 倍

这条让我有点意外。Reddit 用户 gvij 用 4 核 CPU 测了 Needle 26M 和 Qwen3-0.6B 在 50 次工具调用上的表现。Needle 工具匹配准确率 **72.

0%**，平均延迟 10.9 秒；Qwen3 准确率 56.0%，延迟 47.9 秒。

参数少 23 倍，准确率高出 16 个百分点，速度快 4.4 倍。这说明小模型做工具调用不一定输给大模型，架构和训练方式可能比参数量更重要。

但测试仅 50 次查询，样本太少，统计意义有限。而且缺少各难度等级的具体结果，高难度下差距可能缩小。这条先当信号看：小模型在特定任务上可以很能打，但别急着下结论说大模型在工具调用上没优势。

llama.cpp 自带 8 个本地工具，但还没做安全沙箱

llama.cpp 的 server 端多了一个实验性的 --tools 参数，一口气给了 8 个内置工具：read_file、file_glob_search、grep_search、exec_shell_command、write_file、edit_file、apply_diff 和 get_datetime。

直接看，就是让跑在本地的模型能直接读文件、搜内容、执行 shell 命令，不用再外挂 MCP 了。这对本地开发场景挺实用——你可以在自己的机器上让模型直接操作文件系统，省掉中间层的配置和延迟。

但官方明确说了，目前还没做安全沙箱，文件操作和命令执行都没有白名单限制。这会让模型如果产生错误或恶意指令，会直接在宿主机上执行。先别在生产环境里用，等沙箱上了再说。

阶跃星辰发 StepAudio 2.5：能听懂语气和停顿，还支持自定义人格

阶跃星辰发了 StepAudio 2.5 实时语音模型，不只是把语音转成文字再回复，它会捕捉你说话时的语气、语速、停顿甚至微表情这些"副语言"信息。你可以通过 API 给它设定人格、背景故事和说话风格，官方说原生人格选项超过 一万种，组合起来能有数百万种特征。产品内置了 5 个预设人格可以直接试，并且用 RLHF 做了调优，在复杂的角色扮演压力测试里也能保持人设不崩。

听起来挺有意思，但缺了关键信息：延迟多少、成本怎么算、实际测试数据在哪。语音交互对延迟极其敏感，超过 300 毫秒用户就会觉得卡。没给延迟数字，先当 demo 看。

今日小信号

Replit Agent 接上 Squidler：用自然语言描述功能，Agent 自动生成应用并部署，Squidler 像真人一样点来点去测 bug，测出问题再自动丢回给 Agent 修。全程不用写一行测试脚本。但缺少这套流程跑一轮要多久、测试覆盖率有多高。
Mistral 收购 Emmi AI：补 30 多人的物理仿真和数字孪生团队，想做工业 AI。30 人不大，但工业场景关键人才比人数重要。缺少收购金额和具体落地客户。
DeepSeek 要把旗舰模型打 75 折变成永久价：Bloomberg 发了条简短消息，但没说是哪个模型、原价多少、折后多少、什么时候生效。信息缺口太大，先当抢市场信号看。
视觉模型直接读 PDF 做问答，准确率垫底还更贵：用 Claude Sonnet 4.5 直接看 PDF 画面，准确率只有 52.0%，在六套方案里排第五，每次查询成本 0.2552 美元。先用 OCR 转文字再问答的方案准确率更高、成本更低。这条路线目前不划算。
飞书接本地 Claude Code 已开源：在飞书发消息，转成 prompt 传给本机 Claude Code CLI 执行，结果流式同步回飞书。挺实用，但注意 6 月 15 日起 claude -p 模式要单独计费，成本会涨。