AX 的 AI 日报 · 2026-05-11AI 落地最后一公里

今天 AI 圈在拼落地，不是模型

2026年5月11日

今天 AI 圈最有意思的不在某个模型又能写代码了，是几件事同时指向同一个方向：把 AI 塞进真实业务里。Anthropic 在 AWS 上开了个直营店，OpenAI 成立独立公司派工程师驻场帮企业部署，腾讯混元发了 Hy3 预览版，主打复杂任务执行而非跑分。先来看 Anthropic 这一笔。

Anthropic 在 AWS 上开了个直营店，省掉多签一份供应商合同的麻烦

这条我会先打个折——不是新模型，也不是新功能，但对企业采购流程来说，省掉一步是一步。

Anthropic 正式在 AWS 上推出了 Claude 平台，AWS 客户现在可以直接用现有账号登录、走 AWS 账单付款，还能用已承诺的消费额度抵扣。这会让你不用再单独搞一套 Anthropic 的账户和支付，采购流程会简单不少。功能上，这次把完整的 Claude API 套件都带过来了，包括托管运行 AI 智能体、代码执行、文件处理等核心能力，而且新功能跟原生 API 同日上线。

跟 Amazon Bedrock 上的服务不同，这个平台由 Anthropic 直接运营，数据在 AWS 边界外处理。适合那些想要完整平台体验、又不想多签一份供应商合同的企业。

有意思的是，这跟 Anthropic 同一天在 GitHub 开源金融 AI 模板的动作放在一起看，能看出他们在企业端的策略很清晰：一边降低采购门槛，一边给具体行业配好开箱即用的工作流。那套金融模板塞了 10 个端到端智能体、7 个垂直插件，还接好了 11 家主流金融数据商的 MCP 连接器，等于把模型跟 Bloomberg 这类数据源的通路提前打通了。部署方式从个人插件到企业 API 都支持，也能塞进 Microsoft 365 和私有云。

不过两件事都缺效果验证和合规细节。金融模板没提风控场景下的准确率，Claude 平台在 AWS 上的数据边界具体怎么划也没展开。先当基础设施看，实际效果等企业用户反馈。

OpenAI 成立 DeployCo，派工程师驻场帮企业把 AI 跑进业务里

这条跟 Anthropic 在 AWS 上开店是同一个方向，但做法更重。

OpenAI 新成立了一家叫 OpenAI Deployment Company（DeployCo） 的独立公司，专门帮企业把 AI 系统真正部署到日常业务里。核心做法是派驻一种叫“前线部署工程师（FDE）”的人进到客户公司内部，跟业务、运营、一线团队一起找出 AI 最能产生价值的地方，然后重新设计流程、搭系统、做测试，直到能稳定跑在生产环境里。

为了起步，OpenAI 还收购了一家叫 Redwall 的公司，看中的是他们在大规模 AI 部署上的经验。

说实话，这个动作挺重的。派工程师驻场意味着人力成本不低，而且企业级部署的周期通常以月甚至年为单位。OpenAI 之前更多是卖 API 和产品，现在直接下场做服务，说明他们判断光靠模型能力不够，落地最后一公里才是瓶颈。

但正文没披露具体收费、客户案例和部署周期。价格、效果、时间表都还不清楚，先当战略信号看。

腾讯混元 Hy3 预览版：不跑分，跑任务

腾讯混元开放了 Hy3 预览版的早期体验，官方说这是目前混元系列里最强的模型。但它不冲着跑分去，而是强调在真实场景里能把事办成。

模型用了 256K 上下文窗口，一次能塞进很长的材料；架构是混合专家（MoE），还加了快慢思考机制，碰到复杂问题会自动切换深度推理模式。底层把预训练和强化学习管线重做了一遍，目标是在大规模部署时把成本压下来。

这个定位跟今天 Anthropic 和 OpenAI 的动作放在一起看挺有意思——三家都在强调“真实场景执行”，而不是 benchmark 分数。但 Hy3 的具体效果和实测数据还没放出来，成本压到什么程度也没说。先当方向看，等第三方实测。

菲尔兹奖得主实测 ChatGPT 5.5 Pro：17 分钟出论文级成果

这条我会先打个折，但打折之前，数字本身确实有点吓人。

剑桥数学家、菲尔兹奖得主 Timothy Gowers 用 ChatGPT 5.5 Pro 做了个实验，只给简单提示，没做任何数学指导。AI 在 17 分钟内独立解决了一个加法数论公开问题，给出的构造在理论上是最优的。Gowers 判断这个成果完全够格写进博士论文。随后 AI 又在一个更难的 k 重求和集问题上，把已知上界从指数级改进到亚指数级。

Gowers 本人发出了警告：如果 AI 数学能力按这个速度发展，将很快对数学研究领域构成危机，尤其冲击博士生培养。另一位菲尔兹奖得主 陶哲轩 则指出，人类数学家在 AI 时代的核心价值在于“消化”和深入理解证明。

打折的点在于：缺少模型是否针对数学做过专项训练。如果 OpenAI 专门为数学推理做了优化，那这个结果就不完全是通用能力的体现。另外，加法数论问题本身有明确的验证标准，AI 擅长这类“有明确对错”的任务，跟开放式研究还是两回事。

但不管怎么说，17 分钟出博士论文级成果这个事实本身，值得数学系认真想想课程和培养方案要怎么改。

Mira 的新公司发了原生多模态模型，前台 200 毫秒一刷，后台另跑推理

Mira Murati 离开 OpenAI 后创立的 Thinking Machines 发了第一个模型，定位挺清晰：原生多模态交互。

这个模型把音频、视频、文字直接吃进去，不用再靠 agent 把一堆独立模型串起来。架构上分两层：前台交互模型每 200 毫秒处理一次输入，保持对话的实时感，用户可以随时打断；后台推理模型负责长程规划和调工具。

这个设计思路跟今天其他几家不太一样——不是拼 benchmark，而是拼交互体验。200 毫秒的响应间隔基本接近人类对话的自然节奏，打断机制也让交互更接近真人对话而非“等 AI 说完”。

但缺少具体参数量、训练数据和成本，也没给评测对比。实际效果和泛化能力还得看后续公开信息。Mira 在 OpenAI 时期主导了多模态方向，团队背景值得关注，但产品本身先打七折。

纳德拉出庭反击马斯克：你有我手机号，从没抱怨过

这条不算产品新闻，但信息量挺大。

微软 CEO 纳德拉 在马斯克诉 OpenAI 案中作证，核心反驳两点：一是马斯克 2016 年曾发邮件感谢微软给 OpenAI 提供折扣算力，微软当时甚至亏了 1500 万美元；二是马斯克有纳德拉手机号，但直到 2024 年起诉前，从未对双方合作表达过不满。

纳德拉还评价 2023 年奥尔特曼被董事会短暂解雇是“业余之举”，称自己当时出面稳住局面是为了防止员工大规模离职。

这案子核心是马斯克想证明 OpenAI 背弃非营利承诺，但纳德拉的证词直接打脸他“早不反对、现在才告”的时间线。缺少陪审团倾向，但微软和 OpenAI 的防守逻辑很清楚：你当年不仅知道，还感谢过我们。

今日小信号

Anthropic 估值五天涨 2000 亿美元：链上 Pre-IPO 数据说年收入从 2023 年 1 亿飙到 450 亿，一年翻 14 倍。但这是链上交易工具反映的隐含估值，不是官方数字，流动性差、样本少，实际 IPO 定价可能打折。缺少 450 亿是确认收入还是合同额，也没说利润。先别太激动。
OpenRouter 用真实调用数据给模型排座次：不看跑分看用户用脚投票，DeepSeek V4 Pro 排第一，后面跟着 GPT 5.4 Mini 和 Gemini 3.1 Pro。但没公布算法和样本量，排名稳不稳还得观望。
npm 大规模供应链投毒：安全机构 Socket 发现攻击者利用 GitHub Actions 漏洞，在 npm 上发布了近 373 个恶意版本，覆盖 160 多个包名，包括 TanStack 和 Mistral AI 的包。安装时直接偷 AWS/GCP/GitHub 密钥。缺少实际受影响用户数，但如果你最近装了 npm 包，值得检查一下。
全国首例 AI 代写“种草笔记”案宣判：杭州中院判了两家公司赔平台 10 万元，法院用“四要素判定法”划了条线——AI 工具不能定向模仿特定平台风格、诱导用户发假内容来赚钱。这个判例可能会影响后续 AI 内容工具的合规设计。
Karpathy 说别让模型吐 Markdown 了，试试让它直接写 HTML：他觉得现在大模型输出太像草稿纸，直接生成带排版和按钮的 HTML 会好用很多。更远的想法是“交互式神经视频”，但那部分还缺具体方案，先当方向看。