Anthropic 估值冲 9000 亿,但今天 AI 圈在算另一笔账
今天 AI 圈最大的数字是 300 亿美元——Anthropic 的新一轮融资最快下周敲定,估值可能冲到 9000 亿,直接反超 OpenAI。但更有意思的是另一头:微软自己算了笔账,发现用 AI 跑某些任务比雇人还贵;Flask 作者用 AI 开发项目,83% 的 issue 是 AI 生成的"专业废话"。一边是估值狂飙,一边是落地账单开始变真实。先来看 Anthropic 这一笔。
Anthropic 估值冲 9000 亿,但领投方和条款都还没说
这一下我有点愣住了——今天 AI 投资圈最大的数字是 300 亿美元,但更值得看的不是金额,是信息缺口有多大。
彭博社援引知情人士消息,Anthropic 的新一轮融资最快下周敲定,总额预计超过 300 亿美元,公司估值可能突破 9000 亿美元,直接超过 OpenAI。这轮融资推进很快,几周内就从收到提案走到了谈判尾声。公司同时给出了很猛的收入预期:第二季度营收 109 亿美元,比上季度翻了一倍多,并且有望首次实现季度盈利;年化收入预期冲到 440 亿美元。
但我会先打个折。领投方是谁、具体条款怎么定、估值怎么算出来的,这些关键信息全都没披露。9000 亿美元这个数字如果坐实,Anthropic 将成为全球估值最高的 AI 初创公司,但缺少领投方意味着这轮可能还在拼盘阶段,或者条款还没锁死。
有意思的是,就在融资消息传出的同一天,Anthropic 的 Opus 4.8 和神秘项目 Mythos 1 也被提前扒出来了。Opus 4.8 的名字出现在 Google Vertex AI 平台上,同时一份 **59.
8MB** 的 Claude Code 源码映射文件泄露,里面 51.2 万行 TypeScript 代码不仅提到了 Sonnet 4.8,还带出了 Mythos 1 的线索。Mythos 1 看起来和 Claude 的某种新能力或新架构有关,但官方一个字都没说。
这两件事放在一起看,Anthropic 在同时推进三张牌:融资冲估值、模型迭代、以及一个还没公开的新项目。但信息全来自泄露和匿名消息源,先别太激动。
微软自己算账:用 AI 跑某些任务,比雇人还贵
这条我觉得挺实在的。微软在一份报告里直接对比了两种成本:用 token 计费调用模型、用 agent 跑业务流程,以及雇人干同样的活。结论是,在这些特定场景下,AI 的综合开销已经超过了人工工资。
报告没展开讲具体是什么任务、人力成本按哪个市场算的,但至少说明一件事:现在企业上 AI,不是闭着眼就能省钱。token 计费看起来单价低,但 agent 跑复杂流程时调用次数会爆,再加上集成、监控、纠错这些隐性成本,总账可能比雇一个人还贵。
这和另一条消息对上了。奥纬咨询的研究发现,74% 的 CEO 已冻结或缩减招聘,计划削减初级岗位的比例从 17% 跃升至 43%。但报告同时警告,超 90% 的企业在部署 AI,多数仍处试点阶段,过快裁员可能对人才梯队造成长远风险。
两笔账放在一起看:企业想用 AI 省钱,但实际账单比预期高;同时又在砍初级岗位,但 AI 还接不住所有活。这个错位短期内不会消失。
Flask 作者用 AI 开发项目,83% 的 issue 是"专业废话"
这条让我停下来想了一会儿。Flask 作者 Armin Ronacher 用 AI 开发 Pi 项目时发现,项目 issue 里 83% 被自动关闭,因为大量 AI 生成的报告虽然行文专业、推理自洽,但结论是错的。
问题不在 AI 代码质量差,而在于很多老手还在用过去的直觉判断 AI 输出。人类的错误有迹可循——经验丰富的开发者能识别出典型的思维盲区或逻辑跳跃。但 AI 会在一个错误假设上推导出一整套看似滴水不漏的方案,老手的经验识别系统反而会被这种自洽的胡说骗到。
Ronacher 的原话是:你编程十年,但在 AI 面前还是个新手。这句话不是在说 AI 有多强,而是在说判断 AI 输出的能力需要从头练起。老手的经验在识别人类错误时好用,但 AI 的失败模式完全不同——它不会犯低级语法错误,却会在一个微妙的前提上构建一整栋逻辑大厦,然后整栋楼都是歪的。
26M 参数模型在 CPU 上跑工具调用,比 0.6B 模型快 4.4 倍
这条让我有点意外。Reddit 用户 gvij 用 4 核 CPU 测了 Needle 26M 和 Qwen3-0.6B 在 50 次工具调用上的表现。Needle 工具匹配准确率 **72.
0%**,平均延迟 10.9 秒;Qwen3 准确率 56.0%,延迟 47.9 秒。
参数少 23 倍,准确率高出 16 个百分点,速度快 4.4 倍。这说明小模型做工具调用不一定输给大模型,架构和训练方式可能比参数量更重要。
但测试仅 50 次查询,样本太少,统计意义有限。而且缺少各难度等级的具体结果,高难度下差距可能缩小。这条先当信号看:小模型在特定任务上可以很能打,但别急着下结论说大模型在工具调用上没优势。
llama.cpp 自带 8 个本地工具,但还没做安全沙箱
llama.cpp 的 server 端多了一个实验性的 --tools 参数,一口气给了 8 个内置工具:read_file、file_glob_search、grep_search、exec_shell_command、write_file、edit_file、apply_diff 和 get_datetime。
直接看,就是让跑在本地的模型能直接读文件、搜内容、执行 shell 命令,不用再外挂 MCP 了。这对本地开发场景挺实用——你可以在自己的机器上让模型直接操作文件系统,省掉中间层的配置和延迟。
但官方明确说了,目前还没做安全沙箱,文件操作和命令执行都没有白名单限制。这会让模型如果产生错误或恶意指令,会直接在宿主机上执行。先别在生产环境里用,等沙箱上了再说。
阶跃星辰发 StepAudio 2.5:能听懂语气和停顿,还支持自定义人格
阶跃星辰发了 StepAudio 2.5 实时语音模型,不只是把语音转成文字再回复,它会捕捉你说话时的语气、语速、停顿甚至微表情这些"副语言"信息。你可以通过 API 给它设定人格、背景故事和说话风格,官方说原生人格选项超过 一万种,组合起来能有数百万种特征。产品内置了 5 个预设人格可以直接试,并且用 RLHF 做了调优,在复杂的角色扮演压力测试里也能保持人设不崩。
听起来挺有意思,但缺了关键信息:延迟多少、成本怎么算、实际测试数据在哪。语音交互对延迟极其敏感,超过 300 毫秒用户就会觉得卡。没给延迟数字,先当 demo 看。
今日小信号
- Replit Agent 接上 Squidler:用自然语言描述功能,Agent 自动生成应用并部署,Squidler 像真人一样点来点去测 bug,测出问题再自动丢回给 Agent 修。全程不用写一行测试脚本。但缺少这套流程跑一轮要多久、测试覆盖率有多高。
- Mistral 收购 Emmi AI:补 30 多人的物理仿真和数字孪生团队,想做工业 AI。30 人不大,但工业场景关键人才比人数重要。缺少收购金额和具体落地客户。
- DeepSeek 要把旗舰模型打 75 折变成永久价:Bloomberg 发了条简短消息,但没说是哪个模型、原价多少、折后多少、什么时候生效。信息缺口太大,先当抢市场信号看。
- 视觉模型直接读 PDF 做问答,准确率垫底还更贵:用 Claude Sonnet 4.5 直接看 PDF 画面,准确率只有 52.0%,在六套方案里排第五,每次查询成本 0.2552 美元。先用 OCR 转文字再问答的方案准确率更高、成本更低。这条路线目前不划算。
- 飞书接本地 Claude Code 已开源:在飞书发消息,转成 prompt 传给本机 Claude Code CLI 执行,结果流式同步回飞书。挺实用,但注意 6 月 15 日起
claude -p模式要单独计费,成本会涨。