今天 AI 圈在拼落地,不是模型
今天 AI 圈最有意思的不在某个模型又能写代码了,是几件事同时指向同一个方向:把 AI 塞进真实业务里。Anthropic 在 AWS 上开了个直营店,OpenAI 成立独立公司派工程师驻场帮企业部署,腾讯混元发了 Hy3 预览版,主打复杂任务执行而非跑分。先来看 Anthropic 这一笔。
Anthropic 在 AWS 上开了个直营店,省掉多签一份供应商合同的麻烦
这条我会先打个折——不是新模型,也不是新功能,但对企业采购流程来说,省掉一步是一步。
Anthropic 正式在 AWS 上推出了 Claude 平台,AWS 客户现在可以直接用现有账号登录、走 AWS 账单付款,还能用已承诺的消费额度抵扣。这会让你不用再单独搞一套 Anthropic 的账户和支付,采购流程会简单不少。功能上,这次把完整的 Claude API 套件都带过来了,包括托管运行 AI 智能体、代码执行、文件处理等核心能力,而且新功能跟原生 API 同日上线。
跟 Amazon Bedrock 上的服务不同,这个平台由 Anthropic 直接运营,数据在 AWS 边界外处理。适合那些想要完整平台体验、又不想多签一份供应商合同的企业。
有意思的是,这跟 Anthropic 同一天在 GitHub 开源金融 AI 模板的动作放在一起看,能看出他们在企业端的策略很清晰:一边降低采购门槛,一边给具体行业配好开箱即用的工作流。那套金融模板塞了 10 个端到端智能体、7 个垂直插件,还接好了 11 家主流金融数据商的 MCP 连接器,等于把模型跟 Bloomberg 这类数据源的通路提前打通了。部署方式从个人插件到企业 API 都支持,也能塞进 Microsoft 365 和私有云。
不过两件事都缺效果验证和合规细节。金融模板没提风控场景下的准确率,Claude 平台在 AWS 上的数据边界具体怎么划也没展开。先当基础设施看,实际效果等企业用户反馈。
OpenAI 成立 DeployCo,派工程师驻场帮企业把 AI 跑进业务里
这条跟 Anthropic 在 AWS 上开店是同一个方向,但做法更重。
OpenAI 新成立了一家叫 OpenAI Deployment Company(DeployCo) 的独立公司,专门帮企业把 AI 系统真正部署到日常业务里。核心做法是派驻一种叫“前线部署工程师(FDE)”的人进到客户公司内部,跟业务、运营、一线团队一起找出 AI 最能产生价值的地方,然后重新设计流程、搭系统、做测试,直到能稳定跑在生产环境里。
为了起步,OpenAI 还收购了一家叫 Redwall 的公司,看中的是他们在大规模 AI 部署上的经验。
说实话,这个动作挺重的。派工程师驻场意味着人力成本不低,而且企业级部署的周期通常以月甚至年为单位。OpenAI 之前更多是卖 API 和产品,现在直接下场做服务,说明他们判断光靠模型能力不够,落地最后一公里才是瓶颈。
但正文没披露具体收费、客户案例和部署周期。价格、效果、时间表都还不清楚,先当战略信号看。
腾讯混元 Hy3 预览版:不跑分,跑任务
腾讯混元开放了 Hy3 预览版的早期体验,官方说这是目前混元系列里最强的模型。但它不冲着跑分去,而是强调在真实场景里能把事办成。
模型用了 256K 上下文窗口,一次能塞进很长的材料;架构是混合专家(MoE),还加了快慢思考机制,碰到复杂问题会自动切换深度推理模式。底层把预训练和强化学习管线重做了一遍,目标是在大规模部署时把成本压下来。
这个定位跟今天 Anthropic 和 OpenAI 的动作放在一起看挺有意思——三家都在强调“真实场景执行”,而不是 benchmark 分数。但 Hy3 的具体效果和实测数据还没放出来,成本压到什么程度也没说。先当方向看,等第三方实测。
菲尔兹奖得主实测 ChatGPT 5.5 Pro:17 分钟出论文级成果
这条我会先打个折,但打折之前,数字本身确实有点吓人。
剑桥数学家、菲尔兹奖得主 Timothy Gowers 用 ChatGPT 5.5 Pro 做了个实验,只给简单提示,没做任何数学指导。AI 在 17 分钟内独立解决了一个加法数论公开问题,给出的构造在理论上是最优的。Gowers 判断这个成果完全够格写进博士论文。随后 AI 又在一个更难的 k 重求和集问题上,把已知上界从指数级改进到亚指数级。
Gowers 本人发出了警告:如果 AI 数学能力按这个速度发展,将很快对数学研究领域构成危机,尤其冲击博士生培养。另一位菲尔兹奖得主 陶哲轩 则指出,人类数学家在 AI 时代的核心价值在于“消化”和深入理解证明。
打折的点在于:缺少模型是否针对数学做过专项训练。如果 OpenAI 专门为数学推理做了优化,那这个结果就不完全是通用能力的体现。另外,加法数论问题本身有明确的验证标准,AI 擅长这类“有明确对错”的任务,跟开放式研究还是两回事。
但不管怎么说,17 分钟出博士论文级成果这个事实本身,值得数学系认真想想课程和培养方案要怎么改。
Mira 的新公司发了原生多模态模型,前台 200 毫秒一刷,后台另跑推理
Mira Murati 离开 OpenAI 后创立的 Thinking Machines 发了第一个模型,定位挺清晰:原生多模态交互。
这个模型把音频、视频、文字直接吃进去,不用再靠 agent 把一堆独立模型串起来。架构上分两层:前台交互模型每 200 毫秒处理一次输入,保持对话的实时感,用户可以随时打断;后台推理模型负责长程规划和调工具。
这个设计思路跟今天其他几家不太一样——不是拼 benchmark,而是拼交互体验。200 毫秒的响应间隔基本接近人类对话的自然节奏,打断机制也让交互更接近真人对话而非“等 AI 说完”。
但缺少具体参数量、训练数据和成本,也没给评测对比。实际效果和泛化能力还得看后续公开信息。Mira 在 OpenAI 时期主导了多模态方向,团队背景值得关注,但产品本身先打七折。
纳德拉出庭反击马斯克:你有我手机号,从没抱怨过
这条不算产品新闻,但信息量挺大。
微软 CEO 纳德拉 在马斯克诉 OpenAI 案中作证,核心反驳两点:一是马斯克 2016 年曾发邮件感谢微软给 OpenAI 提供折扣算力,微软当时甚至亏了 1500 万美元;二是马斯克有纳德拉手机号,但直到 2024 年起诉前,从未对双方合作表达过不满。
纳德拉还评价 2023 年奥尔特曼被董事会短暂解雇是“业余之举”,称自己当时出面稳住局面是为了防止员工大规模离职。
这案子核心是马斯克想证明 OpenAI 背弃非营利承诺,但纳德拉的证词直接打脸他“早不反对、现在才告”的时间线。缺少陪审团倾向,但微软和 OpenAI 的防守逻辑很清楚:你当年不仅知道,还感谢过我们。
今日小信号
- Anthropic 估值五天涨 2000 亿美元:链上 Pre-IPO 数据说年收入从 2023 年 1 亿飙到 450 亿,一年翻 14 倍。但这是链上交易工具反映的隐含估值,不是官方数字,流动性差、样本少,实际 IPO 定价可能打折。缺少 450 亿是确认收入还是合同额,也没说利润。先别太激动。
- OpenRouter 用真实调用数据给模型排座次:不看跑分看用户用脚投票,DeepSeek V4 Pro 排第一,后面跟着 GPT 5.4 Mini 和 Gemini 3.1 Pro。但没公布算法和样本量,排名稳不稳还得观望。
- npm 大规模供应链投毒:安全机构 Socket 发现攻击者利用 GitHub Actions 漏洞,在 npm 上发布了近 373 个恶意版本,覆盖 160 多个包名,包括 TanStack 和 Mistral AI 的包。安装时直接偷 AWS/GCP/GitHub 密钥。缺少实际受影响用户数,但如果你最近装了 npm 包,值得检查一下。
- 全国首例 AI 代写“种草笔记”案宣判:杭州中院判了两家公司赔平台 10 万元,法院用“四要素判定法”划了条线——AI 工具不能定向模仿特定平台风格、诱导用户发假内容来赚钱。这个判例可能会影响后续 AI 内容工具的合规设计。
- Karpathy 说别让模型吐 Markdown 了,试试让它直接写 HTML:他觉得现在大模型输出太像草稿纸,直接生成带排版和按钮的 HTML 会好用很多。更远的想法是“交互式神经视频”,但那部分还缺具体方案,先当方向看。