Agent上班,钱和权限抢座
今天 AI 圈最有意思的线索,不是哪个模型又多拿了几分,而是 agent 开始真正碰到办公室、电脑和基础设施:OpenAI、微软在抢工作流入口,Meta 在收员工操作轨迹,Anthropic 把 Mythos 管得像网络武器。另一边,SpaceX 对 Cursor 的天价路径、DeepSeek 的首轮融资传闻和 Qwen 的 27B 稠密模型,也把钱、算力和开源路线一起推到桌面上。
SpaceX 给 Cursor 画了条 600 亿美元的路,但路牌还没立稳
如果一笔交易听起来像并购、像合作、又像给一级市场按下暂停键,那最好先别急着鼓掌。
今天最炸的数字来自 SpaceX 和 Cursor。上游摘要称,Cursor 原定本周完成 20 亿美元融资,但在 SpaceX 提出 100 亿美元合作费和 600 亿美元收购路径后叫停谈判。标题里写的是 SpaceX 获得以 600 亿美元收购 AI 编程工具 Cursor 的选择权,听起来像一张非常硬的船票。
但这里最该看的,反而是没写出来的部分:交易结构、时间表、触发条件、双方回应,都没有披露。100 亿美元到底是预付款、采购承诺、技术合作费,还是某种带排他性的商业安排,公开信息里看不到。600 亿美元的路径也一样,它可能是估值锚,也可能是谈判桌上的战略喊价。
Cursor 这类工具本来是 AI 编程入口的明星资产,跟 Claude Code、Codex 一起在抢开发者的默认工作台。SpaceX 不是传统软件收购方,它要的是工程组织里的自动化能力、代码生产效率,以及可能更重要的——不要让这个入口被别的云厂商或模型公司轻易拿走。
所以这事先按传闻级重大信号处理:它还不是一桩可以落章的并购,但已经足够影响融资节奏。一级市场最怕的不是有人出价高,是有人用一个更大的未来价格,把现在的谈判桌掀起来。
很贵,也很会占座。
OpenAI 和微软把 agent 塞进办公室,入口不再是聊天框
办公室里的 AI 以前像个坐在旁边的实习生,问它一句,它回你一段。现在它开始伸手碰工单、文档、邮件和 Slack,这个变化比模型名字好不好听要实在得多。
OpenAI 以研究预览形式上线了 ChatGPT 工作区智能体,面向 ChatGPT Business、Enterprise、Edu 和 Teachers 付费计划。摘要里给出的连接范围很宽:Slack、Gmail、Google Drive、Salesforce、Notion、Linear、Atlassian。它能做的也不是写一段建议,而是更新工单、创建文档、回复 Slack 消息。另一个来源还提到,这类 workspace agents 由 Codex 驱动,运行在云端,目标是自动化复杂工作流。
这边 Microsoft 也没闲着。它把 Copilot Agent Mode 设成 Word、Excel、PowerPoint 的默认体验,Microsoft 365 Copilot 和 Premium 订阅用户即刻可用,个人和家庭版也支持。微软还放了内测数据:Excel 参与度升 67%、点赞率升 65%,Word 参与度升 52%,PowerPoint 新用户留存升 36%。
这两家的动作放在一起看,关键词不是聪明,而是权限。谁能安全地读你的文件、改你的表格、回你的消息、动你的工单,谁就不只是聊天工具,而是企业流程的一部分。OpenAI 把权限、审批和监控放进管理员侧,微软则给了预览、保留或回退改动的交互保险。
模型能力当然重要,但在办公室里,真正贵的是谁能被允许动手。AI 进入公司流程,不是靠一句我很强,而是靠一堆看起来很无聊的权限开关。
Meta 直接拿员工电脑练 agent,这比发产品更激进
如果你想训练一个会操作电脑的 agent,最香的数据不是互联网上的截图,而是人每天怎么点、怎么拖、怎么切应用、怎么在半秒钟里做选择。
Meta 已在美国员工电脑部署 MCI 工具,用工作应用和网站里的鼠标、点击、键盘以及偶发截图来训练 AI agents。路透社的说法是,这些数据用于让模型更像人类那样操作电脑,并自动化员工当前执行的任务。Meta 表示数据不用于绩效考核。
这件事和发一个桌面代理不太一样。桌面代理是产品,员工操作轨迹是燃料。公司内部的工作流数据比公开网页更稀缺,因为它包含了真实任务的上下文:什么时候复制粘贴,什么时候放弃,什么时候从一个系统跳到另一个系统,哪些按钮看上去重要但没人点。
但边界也在这里。公开摘要只披露了美国员工与工作场景,保留时长、退出机制、覆盖范围没有展开。偶发截图听起来轻,落到企业环境里就是一串敏感问题:客户信息、内部文档、代码片段、同事聊天,都可能在屏幕上短暂停留。
Meta 这一步的野心很清楚:它不只想让 agent 会说,还想让 agent 会像人一样用电脑。只是被拿来教 AI 上班的,先是人自己的上班痕迹。
Anthropic 把 Mythos 管得像网络武器,却先栽在访问控制上
Mythos 这条线有点黑色幽默:一边是前沿网络能力被当作准地缘政治资产来管,另一边是第三方承包商权限把门缝留出来了。
Anthropic 宣布将 Mythos 访问限制在小范围,并公布 11 家美国合作伙伴协助修补其发现的软件漏洞。公司称已经向 40 多家关键基础设施机构分享模型,美国以外只有英国获得访问。正文还提到,类似能力的模型至少 18 个月内会更广泛出现。
这已经不是常规模型发布。普通模型发布讲参数、价格、API、benchmark;Mythos 讲的是谁能看、谁能用、哪些国家能参与、发现漏洞后由谁修。一个私营 AI 公司,开始像在做前沿网络能力的出口管理。
更尴尬的是另一条消息:Claude Mythos Preview 被一小群未授权用户获取,途径是第三方承包商权限加常见网络侦查工具。摘要称该模型可以识别并利用主流操作系统与浏览器漏洞,但入侵人数、持续时间、修复状态都没有披露。
这两条放在一起,反差很大。宏大叙事里,它是可能改变网络攻防格局的危险能力;具体事故里,它又回到很朴素的问题:权限给多了、承包商链条没看住、访问控制没锁牢。
安全不是发布会上的形容词,是谁拿得到钥匙。
Qwen3.6-27B 不拼巨无霸,拼的是能不能真落地
开源模型这几年有个常见套路:参数越写越大,名字越写越长,最后用户打开显存账单,默默关掉页面。Qwen3.6-27B 这次有点反着来。
阿里 Qwen 开源了 270 亿参数稠密模型 Qwen3.6-27B,上线 Qwen Studio 并开放权重下载。它在 SWE-bench Verified 得分 77.2,超过更大规模前代 Qwen3.5-397B-A17B 的 76.2;在 Terminal-Bench 2.0 达到 59.3。评测条件里还写了 256K 上下文和 3 小时超时。
这几个数字比较硬,尤其是代码类评测。更有意思的是部署形态:这不是一个继续往 MoE 巨兽方向堆的故事,而是把焦点放回 27B 稠密架构。对于很多团队来说,模型能不能被相对稳定地部署、微调、纳入内网流程,比它在榜单上多赢半分更关键。
当然,开源旗舰这层包装还要看细节。吞吐、显存占用、推理成本、许可证边界、真实生产环境里的失败率,摘要里都没展开。SWE-bench 的分数能证明它有战斗力,但能不能成为团队日常编码 agent 的底座,还得看工程账。
这类模型最好的结局不是热搜,而是被悄悄装进一堆公司的流水线。
资本桌上同时翻牌:DeepSeek、Anthropic 和软银都不是一个玩法
今天的钱也不少,但它们不是同一种钱。
腾讯和阿里巴巴正洽谈参与 DeepSeek 首轮融资,估值被报道为超过 200 亿美元。摘要只确认了洽谈中和首轮融资,没有给融资金额、领投方、交割时间。若这轮真的接入两家中国互联网巨头,DeepSeek 拿到的就不只是现金,还有云资源、分发入口、企业客户和生态位置。所谓纯财务投资,在这种公司身上通常没那么单纯。
另一边,Anthropic 在私募二级市场被报价到 1.05 万亿至 1.15 万亿美元,超过 OpenAI 约 8800 亿美元的同类平台报价。这里要小心:这不是官方新融资估值,也不是大额成交后的定价,而是 Forge Global 等二级平台上的报价。流通股稀缺、Claude Code 叙事、收入增长想象,都可能把价格挤得很高。
SoftBank 的动作更像资产负债表操作。它正寻求一笔 100 亿美元贷款,抵押物是持有的 OpenAI 股份。贷款期限、利率、抵押股份比例、资金用途都没有披露。拿 AI 股权去撬债务,和直接投一家模型公司,是两种风险曲线。
还有 Thinking Machines Lab 与 Google Cloud 的数十亿美元合作,采购由 Nvidia GB300 驱动的 AI 基础设施。合同期限、算力规模、交付时间没披露,但信号很直:头部实验室已经在把下一代芯片供给提前锁进合同里。
AI 资本市场现在像三张桌子:一桌抢股权,一桌押算力,一桌拿未来估值做抵押。热闹归热闹,条款才是肉。
机器人和车机都在讲端侧闭环,但 benchmark 先别当判决书
具身智能今天也有大数字,而且数字都很会说话。
它石智航宣布完成 4.55 亿美元 Pre-A 轮融资,红杉中国、高瓴创投和美团战投联合领投,文中称刷新中国具身智能单轮与 Pre-A 轮融资纪录。它还提到 AWE3.0 四模态模型,未见新视角任务成功率提升 3 倍,执行抖动降约 45%;A1 机器人在 1 小时内完成亚毫米级线束装配,并称创下吉尼斯纪录。
这些描述很漂亮,但公开信息里没有本轮估值与具体交割条件,也没有足够细的任务设置、对照实验和复现方式。机器人领域最容易出现一种错觉:演示视频像未来,量产现场像考试。真正难的是模型、数据、场景三条线持续复现。
车端这边,商汤绝影 Sage 也很热闹。它是车载端侧多模态模型,总参数 32B、激活参数 3B,称在 PinchBench 任务完成率达到 94%,高于 Claude Opus 4.6 的 93.3% 和 GPT-5.4 的 90.5%。它还给出 Nvidia OrinX 部署、TTFT 约 0.5 秒、TPOT 0.03 秒、吞吐 80 tok/s 等指标。
这里的看点不是谁在自家榜单上超过了谁,而是端侧 agent 能不能稳定跑多步工具调用。车机上的 AI 不能只会答问,它要在低延迟、低功耗、强安全约束下完成闭环执行。这个难度和手机聊天助手不在一个房间。
benchmark 可以开门,不能替用户踩刹车。
孙悟空跑进大观园,Show HN 跑出同款落地页
今天两条小故事,一个讲多智能体社会怎么被一句话吓散,另一个讲独立开发者怎么被 AI 默认审美同化。
浙江大学团队开源多智能体叙事系统 OpenStory,在《红楼梦》1:1 数字沙盒里加入 孙悟空 Agent 做压力测试。几分钟内,大观园里的 Agent 集体逃离。系统用记忆模块向活跃角色广播「孙悟空滥杀无辜」,恐惧权重覆盖日常逻辑,王熙凤被物理移除后,大观园变成空城。
这个实验的可爱之处在于它很荒诞,严肃之处也在荒诞里。多 Agent 系统一旦共享记忆和共识链路,谣言、恐慌、错误状态就可能像广播风暴一样扩散。摘要没有披露所用模型、评测指标和复现实验配置,所以别急着把它捧成 AGI 社会学。但它确实把一个问题演出来了:智能体群体不怕有个孙悟空,怕的是大家都相信孙悟空已经开始乱杀。
另一条来自 Hacker News。Adrian Krebs 扫描 500 个最新 Show HN 落地页后称,Show HN 提交量已经增至过去 3 倍,其中 67% 页面命中至少 2 个 AI 设计模式。他的方法是用 Playwright 加页内脚本检查 DOM 与计算样式,按 15 个确定性 CSS/DOM 特征打分,人工抽查误报约 5% 到 10%。
这不是模型能力评测,更像一次审美指纹采集。Claude Code 没让每个独立黑客都变成设计师,但很擅长把默认落地页做得像同一个模板家族。
以前大家说互联网正在模板化,现在连模板都开始有模型味了。
一些值得跟进的小信号
-
OpenAI 启动 GPT-5.5 生物安全漏洞赏金计划,最高悬赏 2.5 万美元,征集可触发生物安全风险的通用越狱。报名条件、评测协议、覆盖范围和截止时间没披露。这个信号不在奖金大小,而在 OpenAI 承认通用越狱对生物安全评测仍然是麻烦。
-
一篇群聊日报提到 V4、GPT-5.5、K2.6、Claude Code、Codex 和 ChatGPT 的工具实测,结论包括 V4 测试花 80 块且误删网站、GPT-5.5 长文本强于 Opus 4.7、K2.6 coding 属一梯队。问题是没有测试集、提示词、模型全名和复现条件。群聊排名可以当体感,别当证据。
-
关于 Claude Design 和 Google DESIGN.md 的讨论,把落点放在小公司和简单项目:设计师与码农岗位正在合并,更省事的是懂一点设计的码农,而不是懂一点代码的设计师。摘要没给参数、定价、上线时间和具体工作流,判断先放着,但方向很现实。
-
团队共享 AI skills 的文章提出,在没有中央审核的条件下共享团队技能,而不是先建统一审批层。它没有披露流程、样例和评估数据,但这个命题有意思:个人 prompt 资产怎么变成团队资产,可能会是很多公司今年的内耗现场。
-
Show HN 的 vibe-coded 页面和 Office 里的 agent,其实是同一条线的两端:一个改生产入口,一个改成品长相。AI 先改变的往往不是最宏大的东西,而是每天看起来最顺手、最懒得改的默认项。